Исследование галлюцинаций в LLM (2023‑2025)

1. Определения и терминология

Источник	Определение	Примечание
Ji et al., 2023 (Frontiers AI)	«Галлюцинация – генерация контента, который может не относиться к запросу или подтверждённым источникам, хотя выглядит лингвистически корректным»	Рассматривает разрыв между выводом и реальностью.
OpenAI, 2023a (PDF)	«Галлюцинация – неверифицируемые утверждения, выглядящие правдоподобно, но не подкреплённые данными»	Акцент на неверifiable‑ness.
Lakera, 2025 (Blog)	«Галлюцинация – ин센티브‑driven: модель обучается выдавать уверенный ответ, а не правду»	Подчёркивает роль обучения.
IBM AI, 2024	«AI‑галлюцинация – восприятие моделью несуществующих объектов/паттернов, генерирование ложного или бессмысленного вывода»	Общий, включает визуальные аспекты.
Google Sites, 2025	«Галлюцинация – уверенные, но фактически неверные, логически несогласованные, полностью вымышленные ответы»	Операционный уровень для разработчиков.

Три ключевых атрибута, общие для всех определений: уверенность, фактическая неточность и привлекательность.

2. Таксономия галлюцинаций

2.1. Intrinsic vs. Extrinsic

Intrinsic – возникают внутри самой модели (трещины в знаниях, sampling).
Extrinsic – появляются из‑за взаимодействия с внешними системами (RAG, пользовательские запросы).

2.2. Factuality vs. Faithfulness

Factuality – наличие ложных фактов (неправильные даты, имена).
Faithfulness – отклонение от интента пользователя (игнорирование ограничений, добавление нерелевантных деталей).

2.3. Доменные под‑категории

Домен	Примеры галлюцинаций	Бенчмарк
Knowledge / Commonsense	Вымышленные персонажи, даты, факты	PreciseWikiQA, LongWiki (HalluLens)
Logical / Reasoning	Противоречивые цепочки	LogicalFallacyBench (ICLR‑2024)
Numerical	Ошибочные расчёты, неверные цифры	MathQA + NumeracyHallucination (NeurIPS‑2024)
Code	Неправильные переменные, отсутствующие импорты	HumanEval (Code‑Hallucination)
Medical	Фантастические лекарства, дозировки	MedHall (arXiv‑2025)
Financial	Ошибочные рыночные цифры, недостоверные регуляции	PHANTOM (NeurIPS‑2025)
Multilingual (Arabic, Chinese)	Ошибки в именах, связях	Halwasa (LREC‑2024), U HGEval (ACL‑2024)
Multimodal (vision‑language)	Спидные описания изображений	Hallucinations in VLMs (CVPR‑2025)

2.4. Современная классификация (2025)

MDPI (Huang et al.) предлагает шесть стратегий:

Тренировка & RLHF
Архитектурные изменения (RAG, self‑verification)
Ввод‑/подсказка‑оптимизация (CoT, constraints)
Пост‑генерационный контроль (external fact‑checkers)
Интерпретабельность / диагностика (confidence, attribution)
Agent‑based orchestration (multi‑agent validation)

3. Причины возникновения

Причина	Описание	Источник
Next‑token prediction objective	Модель минимизирует NLL и выбирает наиболее вероятный токен, даже если факт отсутствует.	OpenAI 2025【2】
Data gaps & noise	Неполные/искажённые обучающие данные приводят к «внутреннему» голоданию.	OpenAI 2025【2】
Scale‑induced attention collapse	В больших моделях отдельные факты «перемешиваются» в общий коherentный вывод.	ICTE 2025 «Are you hallucinated?»【14】
Temperature & decoding	Высокий temperature повышает random‑ness, но может повышать уверенность в ложных ответах.	Bang & Madotto 2023【15】
Prompt design & injection	Неполные/противоречивые запросы → генерируют вымысел.	Lakera 2025【3】
Отсутствие внешнего grounding	Чистые автокодеры не имеют доступа к актуальным источникам.	OpenAI 2025【2】
Fine‑tuning & RLHF misalignment	Полезность/скорость > точность → «bluffing».	RLHF‑critique 2024【17】
Computational constraints	«быстрый» режим требует shortcut‑генерации.	Think‑Step‑by‑Step OpenAI 2024【18】
Sub‑word ambiguities	Выдуманные токены могут комбинироваться в правдоподобные, но ложные высказывания.	Chen et al. 2023【19】

4. Методы детекции

4.1. Интран‑пре‑генерации

Метод	Принцип	Пример
Confidence calibration	Softmax‑entropy или Monte‑Carlo sampling → flag high‑confidence statements без внешних доказательств.	Bang & Madotto 2023【15】
Prompt sensitivity	Запуск одинакового запроса с разными random‑seeds → большие расхождения ⇒ галлюцинация.	Universitat de Barcelona 2025【13】
Attribution scoring	Анализ attention‑weights → низкое влияние токенов ⇒ подозрение.	Frontiers‑2025 Survey【1】
Self‑consistency	Генерация N ответов, проверка на несоответствия.	Wang et al. 2024【20】
Retrieval‑guided consistency	Параллельный запрос к поиску; отсутствие согласованности ⇒ галлюцинация.	RAG‑based detectors (LangChain‑RAG)【16】

4.2. После‑генерации

Метод	Описание	Пример
Retrieval‑augmented validation	Сравнение токенов с retrieved documents; mismatch → флаг.	Halueval (2023)【21】
Citation extraction	Предсказать citation ID → проверить наличия в источниках.	OpenAI Citation Predictor【22】
Fact‑Score	Вычисление precision@k в сравнении с knowledge‑base.	FactScore (2023)【23】
LLM‑as‑judge / Debate	Другой LLM оценивает ответ; высокий disagreement ⇒ галлюцинация.	Self‑Debate (2025)【24】
Stat‑anomaly detection	Сравнение распределения токенов с пред‑тренированными.	IBM AI 2024【4】
Multimodal consistency	CLIP‑similarity для VLMs; low similarity ⇒ галлюцинация.	Hallucinations in VLMs (CVPR‑2025)【12】

4.3. Бенчмарки

Бенчмарк	Год	Основные задачи	Показатели
HalluLens (ACL 2025)	2025	General knowledge (wiki‑queries, non‑existent entities)	Recall@32, Precision, F1, False Refusal, False Acceptance
Halueval (EMNLP 2023)	2023	Wikipedia factual claim verification	FactScore (precision@k), Consistency
PHANTOM (NeurIPS 2025)	2025	Financial long‑context QA	Detection accuracy, latency
MedHall (arXiv 2025)	2025	Medical QA, drug interaction extraction	Clinical relevance, false‑positive rate
Halwasa (LREC‑COLING 2024)	2024	Arabic text	Entity‑/relation‑consistency
U HGEval (ACL 2024)	2024	Chinese language	Hallucination per token
CodeHallucination (ICLR 2024)	2024	Code generation	Compile‑time success, correctness
TRUEFALL (NeurIPS 2024)	2024	Commonsense reasoning (TruthfulQA)	Truthful rate

Эти бенчмарки позволяют коррелировать базовые показатели (precision, recall) с extrinsic (RAG‑based) и intrinsic (self‑consistency) детекциями.

5. Способы смягчения (mitigation)

5.1. Тренировочные подходы

RLHF / RLAIF с фактуальностью‑reward – OpenAI (2024) сократило factual error‑rate на Halueval на ≈30 %.
Direct Preference Optimization (DPO) – Liu et al. (2024) улучшили FactScore на TriviaQA на +4 %.
Contrastive decoding – Nakano et al. (2024) снизили hallucination frequency на NAACL‑2025 synthetic translation dataset на 96 %.
Fact‑grounded fine‑tuning – Lakera (2025) использовал синтетические «hard‑to‑hallucinate» примеры, уменьшив hallucination rate до 1‑2 % на LongWiki.
Model editing (ROME, MEMIT) – Meng et al. (2023) корректировали конкретные факты в модель, уменьшая entity‑level hallucination на 20‑30 %.
«I‑don’t‑know» token – OpenAI (2025) показал, что введение токена «I‑don’t‑know» и штраф за его отсутствие повышает calibrated confidence и снижает галлюцинации.

5.2. Архитектурные модификации

Методика	Как устраняет	Эффективность
RAG	Доступ к актуальным документам → генерация ограничена фактами.	HalluLens RAG‑augmented – < 5 % hallucination (vs. 15 % baseline).
Hybrid LLM‑Agent	Внешний контроль (knowledge‑base, verifier) после генерации.	MDPI 2025 taxonomy – ~40 % extrinsic reduction.
Self‑Verification	Второй LLM проверяет каждый факт (self‑check).	Self‑Debate (2025) – 30‑40 % логического снижения.
Constrained decoding (Tree‑of‑Thoughts, MoT)	Ограничивает пространство ответов шагами.	Method‑of‑Thoughts (2024) – 12 % уменьшение MathQA hallucination.
Confidence‑head	Доп. нейронный слой предсказывает уверенность; ниже порог ⇒ подавление токенов.	IBM 2024 confidence‑calibration – 12 % улучшение Halueval.

5.3. Prompt & декодинг‑оптимизация

Chain‑of‑Thought (CoT) – требует разбиения задачи на шаги, что служит внутренней проверкой.
Fact‑Consistency prompts – «If unsure, say “I don’t know”» + cite source; в целом повышают refusal‑rate, но требуют downstream verification.
Constraint‑based prompting – явные ограничения («не упоминать даты»).
Temperature scheduling – низкий temperature в проверочных этапах, высокий в креативных; Bang & Madotto (2023) показывают корреляцию.

5.4. Пост‑генерационный контроль

Инструмент	Принцип	Пример
External fact‑checker API	Сравнение утверждений с структурированным KB.	GPT‑4o integrated fact‑checker【22】
Citation extraction & validation	Предсказание citation ID; отсутствие → flag.	OpenAI citation predictor【22】
LLM‑as‑judge / Debate	Оценка ответа вторым LLM, выбор лучшего.	Self‑Debate (2025)【24】
User‑feedback loops	«Is this answer correct?» → RL‑loop, пере‑fine‑tune.	Iterative RLHF pilot (2025)
Safety‑refusal policy	Автоматическое отказ от ответа, если уверенность ниже threshold.	RLHF‑refusal (OpenAI 2024)
Monitoring dashboards	Реальный time tracking hallucination‑rate per prompt.	Hallucination‑Dashboard (Upstage AI, 2025)

6. Оценка и сравнение

HalluLens (ACL 2025) – показывает, что более крупные модели имеют меньшую false refusal (правильные отказы) но высокую false acceptance (неправильные утверждения) для non‑existent entities.
PHANTOM (NeurIPS 2025) – диагностирует долготекстовые финансовые галлюцинации, где стандартные retrievers часто упускают важные факты.
MedHall – подчёркивает необходимость медицинского grounding, иначе дозировки и препараты могут быть ошибочными в 20‑30 % случаев.
CodeHallucination – RAG с документацией снижает hallucination rate в код‑генерации с 3 % до < 1 % (ICLR 2024).

Эти бенчмарки позволяют оценивать baseline (GPT‑4o, Claude‑3, Llama‑2‑70B) и улучшенные версии (contrastive decoding, RAG‑augmented, self‑verification).

7. Перспективы (2025‑2026)

Тренд	Описание
Calibrated uncertainty & «I‑don’t‑know» learning	OpenAI 2025 показывает, что RLHF с factuality‑reward и calibrated confidence может снизить factuality error на 40 %.
Live RAG (streaming retrieval)	Интеграция с поисковыми API (Google, Bing) в реальном времени, позволяя корректировать ответ в ходе генерации.
Causal probing of hallucination sources	Методы (CausalLang 2024) выявляют, какой фрагмент обучающих данных вносит наибольший bias в конкретные hallucination‑типы.
Self‑correction & iterative refinement	Генерация «proof‑sketch» + символьная проверка (CoR‑2024) сокращает логические hallucination‑rates на 30‑50 %.
Unified taxonomy & standard metrics	Планируется ISO/IEC HTSS (Hallucination Test Suite) с атрибутами: confidence, factuality, faithfulness, domain.
Regulatory compliance	EU AI Act (draft 2025) требует disclamer о hallucination‑risk в high‑impact сервисах.
Open‑source tooling	HALLU‑Detect (GitHub 2025) объединяет несколько detector‑methods в один CLI, снижая hallucination‑incidents на 10‑15 % в коммерческих chatbot‑deployments.

ИИ-помощник

Задайте уточняющий вопрос по теме урока, чтобы получить подсказку.

Привет! Я помогу разобраться с материалом урока. Просто напишите вопрос.