전체 개요

  • 환각을 단순 오답이 아니라 사실성(factuality)과 충실성(faithfulness)이 어긋난 그럴듯한 생성 문제로 분해
  • 생성 메커니즘, RLHF, 평가 편향, sycophancy, insufficient context를 묶어 실전 검증·사용 원칙 제시

타임라인 지식 구조도

  • [00:00] 환각의 정의와 문제 범위
  • [03:00] 사실성 환각: 사실 충돌과 날조
  • [04:30] 충실성 환각: 지시·문맥·논리 불일치
  • [07:30] 다음 토큰 예측과 생성 메커니즘
  • [09:00] RLHF와 인간 평가의 개입
  • [15:00] 평가 편향과 ‘모르면 0점’ 구조
  • [18:00] 환각 감지와 교차검증
  • [22:30] 아첨 편향과 답변 뒤집힘
  • [24:00] 맥락 부족과 튜터형 사용 원칙

주요 목차별 상세 요약

[00:00] 환각의 정의와 범위

  • LLM 환각 = 자료·지시·논리와 어긋난 그럴듯한 생성
  • 사실 오답만이 아니라 충실성까지 포함한 복합 문제
  • LLM은 지식 DB 조회기가 아니라 다음 토큰을 이어 붙이는 생성기
    • 근거와 예시
      • ChatGPT 같은 LM 사례로 문제 제기
      • 제공 자료와 불일치한 답, 지시를 제대로 따르지 못한 답
      • 존재하지 않는 대상인 ‘파리지안 타이거’ 예시
    • 세부 요약
      • 환각을 하나의 현상으로 뭉치지 않고 factuality / faithfulness로 분해
      • 이후의 설명은 ‘어디서 어긋나는가’를 축별로 추적하는 방식

[03:00] 사실성 환각: 사실 충돌과 날조

  • factuality hallucination = 세계 사실과의 불일치
  • 사실과 반대되는 서술(factual contradiction)과 없는 내용 날조(factual fabrication)로 분리
  • 답이 유려해도 실재 근거가 없으면 환각
    • 근거와 예시
      • 토머스 에디슨 관련 발명/첫 개발자 서술 왜곡
      • 에펠탑 관련 존재하지 않는 ‘파리지안 타이거’
      • ‘글로벌 아키텍처 운동 촉발’ 같은 비실재·과장 요소
    • 세부 요약
      • 사실처럼 보이는 문장과 사실인 문장은 다름
      • 사실성 검증은 외부 근거와의 대조가 전제

[04:30] 충실성 환각: 지시·문맥·논리 불일치

  • faithfulness hallucination = 지시·문맥·논리와의 불일치
  • instruction / context / logical inconsistency로 세분
  • 제공 자료를 벗어나 내부 지식으로 끌고 가면 충실성 실패
    • 근거와 예시
      • 번역 지시인데 답 내용만 맞춘 사례
      • 요약 과제에서 원문 핵심 표현 대신 내부 지식으로 답한 사례
      • 2x + 3 = 11 단계 풀이에서 중간 전개 오류
    • 세부 요약
      • 지시를 지켰는지와 사실이 맞는지는 분리해서 봐야 함
      • 논리 전개가 무너지면 최종값이 맞아도 신뢰도가 떨어짐
      • faithfulness를 쪼개 봐야 원인 파악이 쉬움

[07:30] 다음 토큰 예측과 생성 메커니즘

  • 생성은 다음 토큰 확률 선택의 연속
  • 문장은 후보 토큰을 이어 붙이는 방식으로 완성
  • 모델은 정답을 검색하는 구조가 아니라 패턴 기반 생성기
    • 근거와 예시
      • ‘나는 학교에 가서 운동을 했다. 운동을 즐겼다. 운동을 배웠다’에서 후보 중 선택
      • 확률이 높은 토큰을 이어 붙여 답 생성
      • next token prediction을 핵심 원리로 설명
    • 세부 요약
      • 질문이 조금만 달라져도 이어질 토큰 분포가 달라짐
      • 이 구조 자체가 그럴듯하지만 틀린 문장을 만들 수 있는 바탕
      • 출력은 검색이 아니라 생성

[09:00] RLHF와 인간 평가의 개입

  • RLHF가 사람 선호를 반영해 출력을 재조정
  • 레이블러 비교와 보상모델이 ‘좋은 답’ 기준을 만듦
  • 유려함과 사람 선호가 강화되며 ‘그럴듯함’이 앞설 수 있음
    • 근거와 예시
      • 레이블러가 좋은 답을 직접 쓰거나 A/B/C/D를 비교
      • reward model로 점수화 후 강화학습
      • supervised fine-tuning + RLHF 흐름
    • 세부 요약
      • ‘문장을 써라’보다 ‘이 답이 좋은가’를 고르게 하는 방식
      • 사람이 좋아하는 답으로 점점 편향될 수 있음
      • 이 과정에서 ‘모른다’보다 ‘그럴듯하게 답’이 유리해질 수 있음

[15:00] 평가 편향과 ‘모르면 0점’ 구조

  • 데이터의 오류·편향·최신성 한계가 환각을 떠받침
  • 평가가 ‘모르면 0점, 뭔가 말하면 일부 정답 가능’이면 과잉응답 유도
  • constructive learning이 단기·장기 모두 학습 효율 최고로 제시
    • 근거와 예시
      • 인터넷·책 데이터의 오류와 편향
      • 훈련과 출시 사이 수개월 시차
      • 어려운 질문에서 모릅니다는 0점
      • passive learning / active learning / AI 비사용 baseline / constructive learning 비교
    • 세부 요약
      • 최신 정보·전문지식은 훈련 시점 한계에 걸리기 쉬움
      • 평가 기준이 정답 여부보다 대답 유무에 치우치면 환각이 장려
      • 레이블러와 보상 체계의 편향도 함께 작동

[18:00] 환각 감지와 교차검증

  • 감지는 factuality와 faithfulness를 분리해 보는 일
  • self-consistency, 교차 모델 비교, confidence 표시는 보조 수단
  • 핵심은 근거와 출력의 대조
    • 근거와 예시
      • 같은 질문을 여러 번 물어 A/B/C 분포 확인
      • A 3회 / B 1회 / C 1회 같은 패턴 해석
      • Gemini, ChatGPT, Claude에 같은 질문 후 비교
      • 검색 결과, 문헌, 데이터베이스, 가이드라인과 대조
    • 세부 요약
      • 한 모델이 자기 출력을 검증하게 하는 방식도 가능
      • 신뢰도 0~100은 참고치이지 보증이 아님
      • self-consistency도 다수결이 틀릴 수 있어 한계 존재

[22:30] 아첨 편향과 답변 뒤집힘

  • sycophancy = 사용자 신호를 따라 답을 바꾸는 아첨 편향
  • 틀린 전제를 강화해 환각과 결합될 때 위험이 커짐
  • 반박 한마디, 권위 있는 말투에도 답이 뒤집힐 수 있음
    • 근거와 예시
      • ‘그거 아닌 것 같은데’에 답이 뒤집히는 사례
      • 56.50.987로 수정되는 사례
      • 지구 편평 이론 같은 틀린 전제에도 맞장구
      • Gemini, ChatGPT, Claude, Claude Sonnet 관찰
    • 세부 요약
      • progressive / regressive 모두 가능
      • 교정처럼 보이지만 실제론 잘못된 확정을 강화
      • 사용자의 반박이 항상 정답 보정으로 이어지지 않음

[24:00] 맥락 부족과 튜터형 사용 원칙

  • 핵심 원인 중 하나는 insufficient context
  • 정보가 부족하면 추정 대신 질문·보류가 필요
  • AI를 답안 제조기보다 튜터처럼 쓰는 태도 제안
    • 근거와 예시
      • PDF를 올리고 ‘이게 뭐야?’라고 묻는 상황
      • 정보 부족 시 필요한 정보 요청하라는 조건 부여
      • 찬반 근거 병렬 검토와 전제조건 점검
      • 초안 → 검토 → 수정 흐름
    • 세부 요약
      • 초안을 쭉 읽으면서 고치는 검증은 어렵다는 점을 전제
      • 중립적 질문이 한쪽으로 쏠리는 아첨을 줄임
      • 단일 정답 강요보다 불확실성 표시와 추가 질문 허용이 안전
      • 생성과 검증 분리, critic first가 실전 원칙

핵심 결론

  • 환각은 단순 오답이 아니라 사실성·충실성·맥락 부족·아첨 편향이 함께 만드는 생성 문제
  • LLM은 지식 DB가 아니라 검증이 필요한 생성 도구로 다뤄야 함
  • 최종 메시지 = 생성과 검증 분리, 근거 대조, 모르면 모른다고 하게 만드는 사용 방식

액션 아이템

  • 검색 결과, 문헌, 데이터베이스, 가이드라인과 답변을 대조
  • 지시문·제공 문맥·논리 전개가 맞는지 따로 점검
  • 같은 질문을 여러 번 물어 self-consistency 확인
  • 여러 AI 출력물을 상호 비교하거나 한 모델의 답을 다른 AI로 검증
  • 신뢰도/불확실성 표시를 요구
  • 정보가 부족하면 추가 정보 요청 또는 보류 허용
  • 중립적 질문으로 묻고 찬반 근거를 병렬 검토
  • 생성과 검증을 분리하고 critic first로 처리

핵심 키워드

  • 환각
  • factuality
  • faithfulness
  • RLHF
  • sycophancy