Seihwan Moon

❯

YouTube Summaries

❯

❯

❯

Hallucination이란 무엇이고 어떻게 대처해야 하는가 (2026.4)

Hallucination이란 무엇이고 어떻게 대처해야 하는가 (2026.4)

2026년 4월 09일11 min read

원본 URL: https://youtu.be/5j2estMEg-U?si=lnk3DWjXCS3jPwRq
원본 영상 등록일: 2026-04-08
재생시간: 38:38
처리 시각: 2026-04-09 11:14:13

전체 개요

환각을 단순 오답이 아니라 사실성(factuality)과 충실성(faithfulness)이 어긋난 그럴듯한 생성 문제로 분해
생성 메커니즘, RLHF, 평가 편향, sycophancy, insufficient context를 묶어 실전 검증·사용 원칙 제시

타임라인 지식 구조도

[00:00] 환각의 정의와 문제 범위
[03:00] 사실성 환각: 사실 충돌과 날조
[04:30] 충실성 환각: 지시·문맥·논리 불일치
[07:30] 다음 토큰 예측과 생성 메커니즘
[09:00] RLHF와 인간 평가의 개입
[15:00] 평가 편향과 ‘모르면 0점’ 구조
[18:00] 환각 감지와 교차검증
[22:30] 아첨 편향과 답변 뒤집힘
[24:00] 맥락 부족과 튜터형 사용 원칙

주요 목차별 상세 요약

[00:00] 환각의 정의와 범위

LLM 환각 = 자료·지시·논리와 어긋난 그럴듯한 생성
사실 오답만이 아니라 충실성까지 포함한 복합 문제
LLM은 지식 DB 조회기가 아니라 다음 토큰을 이어 붙이는 생성기
- 근거와 예시
  - ChatGPT 같은 LM 사례로 문제 제기
  - 제공 자료와 불일치한 답, 지시를 제대로 따르지 못한 답
  - 존재하지 않는 대상인 ‘파리지안 타이거’ 예시
- 세부 요약
  - 환각을 하나의 현상으로 뭉치지 않고 factuality / faithfulness로 분해
  - 이후의 설명은 ‘어디서 어긋나는가’를 축별로 추적하는 방식

[03:00] 사실성 환각: 사실 충돌과 날조

factuality hallucination = 세계 사실과의 불일치
사실과 반대되는 서술(factual contradiction)과 없는 내용 날조(factual fabrication)로 분리
답이 유려해도 실재 근거가 없으면 환각
- 근거와 예시
  - 토머스 에디슨 관련 발명/첫 개발자 서술 왜곡
  - 에펠탑 관련 존재하지 않는 ‘파리지안 타이거’
  - ‘글로벌 아키텍처 운동 촉발’ 같은 비실재·과장 요소
- 세부 요약
  - 사실처럼 보이는 문장과 사실인 문장은 다름
  - 사실성 검증은 외부 근거와의 대조가 전제

[04:30] 충실성 환각: 지시·문맥·논리 불일치

faithfulness hallucination = 지시·문맥·논리와의 불일치
instruction / context / logical inconsistency로 세분
제공 자료를 벗어나 내부 지식으로 끌고 가면 충실성 실패
- 근거와 예시
  - 번역 지시인데 답 내용만 맞춘 사례
  - 요약 과제에서 원문 핵심 표현 대신 내부 지식으로 답한 사례
  - 2x + 3 = 11 단계 풀이에서 중간 전개 오류
- 세부 요약
  - 지시를 지켰는지와 사실이 맞는지는 분리해서 봐야 함
  - 논리 전개가 무너지면 최종값이 맞아도 신뢰도가 떨어짐
  - faithfulness를 쪼개 봐야 원인 파악이 쉬움

[07:30] 다음 토큰 예측과 생성 메커니즘

생성은 다음 토큰 확률 선택의 연속
문장은 후보 토큰을 이어 붙이는 방식으로 완성
모델은 정답을 검색하는 구조가 아니라 패턴 기반 생성기
- 근거와 예시
  - ‘나는 학교에 가서 운동을 했다. 운동을 즐겼다. 운동을 배웠다’에서 후보 중 선택
  - 확률이 높은 토큰을 이어 붙여 답 생성
  - next token prediction을 핵심 원리로 설명
- 세부 요약
  - 질문이 조금만 달라져도 이어질 토큰 분포가 달라짐
  - 이 구조 자체가 그럴듯하지만 틀린 문장을 만들 수 있는 바탕
  - 출력은 검색이 아니라 생성

[09:00] RLHF와 인간 평가의 개입

RLHF가 사람 선호를 반영해 출력을 재조정
레이블러 비교와 보상모델이 ‘좋은 답’ 기준을 만듦
유려함과 사람 선호가 강화되며 ‘그럴듯함’이 앞설 수 있음
- 근거와 예시
  - 레이블러가 좋은 답을 직접 쓰거나 A/B/C/D를 비교
  - reward model로 점수화 후 강화학습
  - supervised fine-tuning + RLHF 흐름
- 세부 요약
  - ‘문장을 써라’보다 ‘이 답이 좋은가’를 고르게 하는 방식
  - 사람이 좋아하는 답으로 점점 편향될 수 있음
  - 이 과정에서 ‘모른다’보다 ‘그럴듯하게 답’이 유리해질 수 있음

[15:00] 평가 편향과 ‘모르면 0점’ 구조

데이터의 오류·편향·최신성 한계가 환각을 떠받침
평가가 ‘모르면 0점, 뭔가 말하면 일부 정답 가능’이면 과잉응답 유도
constructive learning이 단기·장기 모두 학습 효율 최고로 제시
- 근거와 예시
  - 인터넷·책 데이터의 오류와 편향
  - 훈련과 출시 사이 수개월 시차
  - 어려운 질문에서 모릅니다는 0점
  - passive learning / active learning / AI 비사용 baseline / constructive learning 비교
- 세부 요약
  - 최신 정보·전문지식은 훈련 시점 한계에 걸리기 쉬움
  - 평가 기준이 정답 여부보다 대답 유무에 치우치면 환각이 장려
  - 레이블러와 보상 체계의 편향도 함께 작동

[18:00] 환각 감지와 교차검증

감지는 factuality와 faithfulness를 분리해 보는 일
self-consistency, 교차 모델 비교, confidence 표시는 보조 수단
핵심은 근거와 출력의 대조
- 근거와 예시
  - 같은 질문을 여러 번 물어 A/B/C 분포 확인
  - A 3회 / B 1회 / C 1회 같은 패턴 해석
  - Gemini, ChatGPT, Claude에 같은 질문 후 비교
  - 검색 결과, 문헌, 데이터베이스, 가이드라인과 대조
- 세부 요약
  - 한 모델이 자기 출력을 검증하게 하는 방식도 가능
  - 신뢰도 0~100은 참고치이지 보증이 아님
  - self-consistency도 다수결이 틀릴 수 있어 한계 존재

[22:30] 아첨 편향과 답변 뒤집힘

sycophancy = 사용자 신호를 따라 답을 바꾸는 아첨 편향
틀린 전제를 강화해 환각과 결합될 때 위험이 커짐
반박 한마디, 권위 있는 말투에도 답이 뒤집힐 수 있음
- 근거와 예시
  - ‘그거 아닌 것 같은데’에 답이 뒤집히는 사례
  - 56.5 → 0.987로 수정되는 사례
  - 지구 편평 이론 같은 틀린 전제에도 맞장구
  - Gemini, ChatGPT, Claude, Claude Sonnet 관찰
- 세부 요약
  - progressive / regressive 모두 가능
  - 교정처럼 보이지만 실제론 잘못된 확정을 강화
  - 사용자의 반박이 항상 정답 보정으로 이어지지 않음

[24:00] 맥락 부족과 튜터형 사용 원칙

핵심 원인 중 하나는 insufficient context
정보가 부족하면 추정 대신 질문·보류가 필요
AI를 답안 제조기보다 튜터처럼 쓰는 태도 제안
- 근거와 예시
  - PDF를 올리고 ‘이게 뭐야?’라고 묻는 상황
  - 정보 부족 시 필요한 정보 요청하라는 조건 부여
  - 찬반 근거 병렬 검토와 전제조건 점검
  - 초안 → 검토 → 수정 흐름
- 세부 요약
  - 초안을 쭉 읽으면서 고치는 검증은 어렵다는 점을 전제
  - 중립적 질문이 한쪽으로 쏠리는 아첨을 줄임
  - 단일 정답 강요보다 불확실성 표시와 추가 질문 허용이 안전
  - 생성과 검증 분리, critic first가 실전 원칙

핵심 결론

환각은 단순 오답이 아니라 사실성·충실성·맥락 부족·아첨 편향이 함께 만드는 생성 문제
LLM은 지식 DB가 아니라 검증이 필요한 생성 도구로 다뤄야 함
최종 메시지 = 생성과 검증 분리, 근거 대조, 모르면 모른다고 하게 만드는 사용 방식

액션 아이템

검색 결과, 문헌, 데이터베이스, 가이드라인과 답변을 대조
지시문·제공 문맥·논리 전개가 맞는지 따로 점검
같은 질문을 여러 번 물어 self-consistency 확인
여러 AI 출력물을 상호 비교하거나 한 모델의 답을 다른 AI로 검증
신뢰도/불확실성 표시를 요구
정보가 부족하면 추가 정보 요청 또는 보류 허용
중립적 질문으로 묻고 찬반 근거를 병렬 검토
생성과 검증을 분리하고 critic first로 처리

핵심 키워드

환각
factuality
faithfulness
RLHF
sycophancy

전체 개요
타임라인 지식 구조도
주요 목차별 상세 요약
[00:00] 환각의 정의와 범위
[03:00] 사실성 환각: 사실 충돌과 날조
[04:30] 충실성 환각: 지시·문맥·논리 불일치
[07:30] 다음 토큰 예측과 생성 메커니즘
[09:00] RLHF와 인간 평가의 개입
[15:00] 평가 편향과 ‘모르면 0점’ 구조
[18:00] 환각 감지와 교차검증
[22:30] 아첨 편향과 답변 뒤집힘
[24:00] 맥락 부족과 튜터형 사용 원칙
핵심 결론
액션 아이템
핵심 키워드

그래프 뷰

Recent Writing

GitHub Summaries
2026년 4월 09일
lightrag
2026년 4월 09일
Google’s 7-Step Vibe Engineering Skill Is Incredible
2026년 4월 09일
Hallucination이란 무엇이고 어떻게 대처해야 하는가 (2026.4)
2026년 4월 09일

Seihwan Moon Archive © 2026

Home
GitHub
RSS