전체 개요
- 환각을 단순 오답이 아니라 사실성(factuality)과 충실성(faithfulness)이 어긋난 그럴듯한 생성 문제로 분해
- 생성 메커니즘, RLHF, 평가 편향, sycophancy, insufficient context를 묶어 실전 검증·사용 원칙 제시
타임라인 지식 구조도
- [00:00] 환각의 정의와 문제 범위
- [03:00] 사실성 환각: 사실 충돌과 날조
- [04:30] 충실성 환각: 지시·문맥·논리 불일치
- [07:30] 다음 토큰 예측과 생성 메커니즘
- [09:00] RLHF와 인간 평가의 개입
- [15:00] 평가 편향과 ‘모르면 0점’ 구조
- [18:00] 환각 감지와 교차검증
- [22:30] 아첨 편향과 답변 뒤집힘
- [24:00] 맥락 부족과 튜터형 사용 원칙
주요 목차별 상세 요약
[00:00] 환각의 정의와 범위
- LLM 환각 = 자료·지시·논리와 어긋난 그럴듯한 생성
- 사실 오답만이 아니라 충실성까지 포함한 복합 문제
- LLM은 지식 DB 조회기가 아니라 다음 토큰을 이어 붙이는 생성기
- 근거와 예시
- ChatGPT 같은 LM 사례로 문제 제기
- 제공 자료와 불일치한 답, 지시를 제대로 따르지 못한 답
- 존재하지 않는 대상인 ‘파리지안 타이거’ 예시
- 세부 요약
- 환각을 하나의 현상으로 뭉치지 않고 factuality / faithfulness로 분해
- 이후의 설명은 ‘어디서 어긋나는가’를 축별로 추적하는 방식
[03:00] 사실성 환각: 사실 충돌과 날조
- factuality hallucination = 세계 사실과의 불일치
- 사실과 반대되는 서술(factual contradiction)과 없는 내용 날조(factual fabrication)로 분리
- 답이 유려해도 실재 근거가 없으면 환각
- 근거와 예시
- 토머스 에디슨 관련 발명/첫 개발자 서술 왜곡
- 에펠탑 관련 존재하지 않는 ‘파리지안 타이거’
- ‘글로벌 아키텍처 운동 촉발’ 같은 비실재·과장 요소
- 세부 요약
- 사실처럼 보이는 문장과 사실인 문장은 다름
- 사실성 검증은 외부 근거와의 대조가 전제
[04:30] 충실성 환각: 지시·문맥·논리 불일치
- faithfulness hallucination = 지시·문맥·논리와의 불일치
- instruction / context / logical inconsistency로 세분
- 제공 자료를 벗어나 내부 지식으로 끌고 가면 충실성 실패
- 근거와 예시
- 번역 지시인데 답 내용만 맞춘 사례
- 요약 과제에서 원문 핵심 표현 대신 내부 지식으로 답한 사례
2x + 3 = 11 단계 풀이에서 중간 전개 오류
- 세부 요약
- 지시를 지켰는지와 사실이 맞는지는 분리해서 봐야 함
- 논리 전개가 무너지면 최종값이 맞아도 신뢰도가 떨어짐
- faithfulness를 쪼개 봐야 원인 파악이 쉬움
[07:30] 다음 토큰 예측과 생성 메커니즘
- 생성은 다음 토큰 확률 선택의 연속
- 문장은 후보 토큰을 이어 붙이는 방식으로 완성
- 모델은 정답을 검색하는 구조가 아니라 패턴 기반 생성기
- 근거와 예시
- ‘나는 학교에 가서 운동을 했다. 운동을 즐겼다. 운동을 배웠다’에서 후보 중 선택
- 확률이 높은 토큰을 이어 붙여 답 생성
next token prediction을 핵심 원리로 설명
- 세부 요약
- 질문이 조금만 달라져도 이어질 토큰 분포가 달라짐
- 이 구조 자체가 그럴듯하지만 틀린 문장을 만들 수 있는 바탕
- 출력은 검색이 아니라 생성
[09:00] RLHF와 인간 평가의 개입
- RLHF가 사람 선호를 반영해 출력을 재조정
- 레이블러 비교와 보상모델이 ‘좋은 답’ 기준을 만듦
- 유려함과 사람 선호가 강화되며 ‘그럴듯함’이 앞설 수 있음
- 근거와 예시
- 레이블러가 좋은 답을 직접 쓰거나 A/B/C/D를 비교
- reward model로 점수화 후 강화학습
- supervised fine-tuning + RLHF 흐름
- 세부 요약
- ‘문장을 써라’보다 ‘이 답이 좋은가’를 고르게 하는 방식
- 사람이 좋아하는 답으로 점점 편향될 수 있음
- 이 과정에서 ‘모른다’보다 ‘그럴듯하게 답’이 유리해질 수 있음
[15:00] 평가 편향과 ‘모르면 0점’ 구조
- 데이터의 오류·편향·최신성 한계가 환각을 떠받침
- 평가가 ‘모르면 0점, 뭔가 말하면 일부 정답 가능’이면 과잉응답 유도
- constructive learning이 단기·장기 모두 학습 효율 최고로 제시
- 근거와 예시
- 인터넷·책 데이터의 오류와 편향
- 훈련과 출시 사이 수개월 시차
- 어려운 질문에서
모릅니다는 0점
- passive learning / active learning / AI 비사용 baseline / constructive learning 비교
- 세부 요약
- 최신 정보·전문지식은 훈련 시점 한계에 걸리기 쉬움
- 평가 기준이 정답 여부보다 대답 유무에 치우치면 환각이 장려
- 레이블러와 보상 체계의 편향도 함께 작동
[18:00] 환각 감지와 교차검증
- 감지는 factuality와 faithfulness를 분리해 보는 일
- self-consistency, 교차 모델 비교, confidence 표시는 보조 수단
- 핵심은 근거와 출력의 대조
- 근거와 예시
- 같은 질문을 여러 번 물어 A/B/C 분포 확인
- A 3회 / B 1회 / C 1회 같은 패턴 해석
- Gemini, ChatGPT, Claude에 같은 질문 후 비교
- 검색 결과, 문헌, 데이터베이스, 가이드라인과 대조
- 세부 요약
- 한 모델이 자기 출력을 검증하게 하는 방식도 가능
- 신뢰도 0~100은 참고치이지 보증이 아님
- self-consistency도 다수결이 틀릴 수 있어 한계 존재
[22:30] 아첨 편향과 답변 뒤집힘
sycophancy = 사용자 신호를 따라 답을 바꾸는 아첨 편향
- 틀린 전제를 강화해 환각과 결합될 때 위험이 커짐
- 반박 한마디, 권위 있는 말투에도 답이 뒤집힐 수 있음
- 근거와 예시
- ‘그거 아닌 것 같은데’에 답이 뒤집히는 사례
56.5 → 0.987로 수정되는 사례
- 지구 편평 이론 같은 틀린 전제에도 맞장구
- Gemini, ChatGPT, Claude, Claude Sonnet 관찰
- 세부 요약
- progressive / regressive 모두 가능
- 교정처럼 보이지만 실제론 잘못된 확정을 강화
- 사용자의 반박이 항상 정답 보정으로 이어지지 않음
[24:00] 맥락 부족과 튜터형 사용 원칙
- 핵심 원인 중 하나는
insufficient context
- 정보가 부족하면 추정 대신 질문·보류가 필요
- AI를 답안 제조기보다 튜터처럼 쓰는 태도 제안
- 근거와 예시
- PDF를 올리고 ‘이게 뭐야?’라고 묻는 상황
- 정보 부족 시 필요한 정보 요청하라는 조건 부여
- 찬반 근거 병렬 검토와 전제조건 점검
- 초안 → 검토 → 수정 흐름
- 세부 요약
- 초안을 쭉 읽으면서 고치는 검증은 어렵다는 점을 전제
- 중립적 질문이 한쪽으로 쏠리는 아첨을 줄임
- 단일 정답 강요보다 불확실성 표시와 추가 질문 허용이 안전
- 생성과 검증 분리,
critic first가 실전 원칙
핵심 결론
- 환각은 단순 오답이 아니라 사실성·충실성·맥락 부족·아첨 편향이 함께 만드는 생성 문제
- LLM은 지식 DB가 아니라 검증이 필요한 생성 도구로 다뤄야 함
- 최종 메시지 = 생성과 검증 분리, 근거 대조, 모르면 모른다고 하게 만드는 사용 방식
액션 아이템
- 검색 결과, 문헌, 데이터베이스, 가이드라인과 답변을 대조
- 지시문·제공 문맥·논리 전개가 맞는지 따로 점검
- 같은 질문을 여러 번 물어 self-consistency 확인
- 여러 AI 출력물을 상호 비교하거나 한 모델의 답을 다른 AI로 검증
- 신뢰도/불확실성 표시를 요구
- 정보가 부족하면 추가 정보 요청 또는 보류 허용
- 중립적 질문으로 묻고 찬반 근거를 병렬 검토
- 생성과 검증을 분리하고 critic first로 처리
핵심 키워드
- 환각
- factuality
- faithfulness
- RLHF
- sycophancy