← Назад к курсу

Исследование галлюцинаций в LLM (2023‑2025)

1. Определения и терминология

Источник Определение Примечание
Ji et al., 2023 (Frontiers AI) «Галлюцинация – генерация контента, который может не относиться к запросу или подтверждённым источникам, хотя выглядит лингвистически корректным» Рассматривает разрыв между выводом и реальностью.
OpenAI, 2023a (PDF) «Галлюцинация – неверифицируемые утверждения, выглядящие правдоподобно, но не подкреплённые данными» Акцент на неверifiable‑ness.
Lakera, 2025 (Blog) «Галлюцинация – ин센티브‑driven: модель обучается выдавать уверенный ответ, а не правду» Подчёркивает роль обучения.
IBM AI, 2024 «AI‑галлюцинация – восприятие моделью несуществующих объектов/паттернов, генерирование ложного или бессмысленного вывода» Общий, включает визуальные аспекты.
Google Sites, 2025 «Галлюцинация – уверенные, но фактически неверные, логически несогласованные, полностью вымышленные ответы» Операционный уровень для разработчиков.

Три ключевых атрибута, общие для всех определений: уверенность, фактическая неточность и привлекательность.

2. Таксономия галлюцинаций

2.1. Intrinsic vs. Extrinsic

  • Intrinsic – возникают внутри самой модели (трещины в знаниях, sampling).
  • Extrinsic – появляются из‑за взаимодействия с внешними системами (RAG, пользовательские запросы).

2.2. Factuality vs. Faithfulness

  • Factuality – наличие ложных фактов (неправильные даты, имена).
  • Faithfulness – отклонение от интента пользователя (игнорирование ограничений, добавление нерелевантных деталей).

2.3. Доменные под‑категории

Домен Примеры галлюцинаций Бенчмарк
Knowledge / Commonsense Вымышленные персонажи, даты, факты PreciseWikiQA, LongWiki (HalluLens)
Logical / Reasoning Противоречивые цепочки LogicalFallacyBench (ICLR‑2024)
Numerical Ошибочные расчёты, неверные цифры MathQA + NumeracyHallucination (NeurIPS‑2024)
Code Неправильные переменные, отсутствующие импорты HumanEval (Code‑Hallucination)
Medical Фантастические лекарства, дозировки MedHall (arXiv‑2025)
Financial Ошибочные рыночные цифры, недостоверные регуляции PHANTOM (NeurIPS‑2025)
Multilingual (Arabic, Chinese) Ошибки в именах, связях Halwasa (LREC‑2024), U HGEval (ACL‑2024)
Multimodal (vision‑language) Спидные описания изображений Hallucinations in VLMs (CVPR‑2025)

2.4. Современная классификация (2025)

MDPI (Huang et al.) предлагает шесть стратегий:

  1. Тренировка & RLHF
  2. Архитектурные изменения (RAG, self‑verification)
  3. Ввод‑/подсказка‑оптимизация (CoT, constraints)
  4. Пост‑генерационный контроль (external fact‑checkers)
  5. Интерпретабельность / диагностика (confidence, attribution)
  6. Agent‑based orchestration (multi‑agent validation)

3. Причины возникновения

Причина Описание Источник
Next‑token prediction objective Модель минимизирует NLL и выбирает наиболее вероятный токен, даже если факт отсутствует. OpenAI 2025【2】
Data gaps & noise Неполные/искажённые обучающие данные приводят к «внутреннему» голоданию. OpenAI 2025【2】
Scale‑induced attention collapse В больших моделях отдельные факты «перемешиваются» в общий коherentный вывод. ICTE 2025 «Are you hallucinated?»【14】
Temperature & decoding Высокий temperature повышает random‑ness, но может повышать уверенность в ложных ответах. Bang & Madotto 2023【15】
Prompt design & injection Неполные/противоречивые запросы → генерируют вымысел. Lakera 2025【3】
Отсутствие внешнего grounding Чистые автокодеры не имеют доступа к актуальным источникам. OpenAI 2025【2】
Fine‑tuning & RLHF misalignment Полезность/скорость > точность → «bluffing». RLHF‑critique 2024【17】
Computational constraints «быстрый» режим требует shortcut‑генерации. Think‑Step‑by‑Step OpenAI 2024【18】
Sub‑word ambiguities Выдуманные токены могут комбинироваться в правдоподобные, но ложные высказывания. Chen et al. 2023【19】

4. Методы детекции

4.1. Интран‑пре‑генерации

Метод Принцип Пример
Confidence calibration Softmax‑entropy или Monte‑Carlo sampling → flag high‑confidence statements без внешних доказательств. Bang & Madotto 2023【15】
Prompt sensitivity Запуск одинакового запроса с разными random‑seeds → большие расхождения ⇒ галлюцинация. Universitat de Barcelona 2025【13】
Attribution scoring Анализ attention‑weights → низкое влияние токенов ⇒ подозрение. Frontiers‑2025 Survey【1】
Self‑consistency Генерация N ответов, проверка на несоответствия. Wang et al. 2024【20】
Retrieval‑guided consistency Параллельный запрос к поиску; отсутствие согласованности ⇒ галлюцинация. RAG‑based detectors (LangChain‑RAG)【16】

4.2. После‑генерации

Метод Описание Пример
Retrieval‑augmented validation Сравнение токенов с retrieved documents; mismatch → флаг. Halueval (2023)【21】
Citation extraction Предсказать citation ID → проверить наличия в источниках. OpenAI Citation Predictor【22】
Fact‑Score Вычисление precision@k в сравнении с knowledge‑base. FactScore (2023)【23】
LLM‑as‑judge / Debate Другой LLM оценивает ответ; высокий disagreement ⇒ галлюцинация. Self‑Debate (2025)【24】
Stat‑anomaly detection Сравнение распределения токенов с пред‑тренированными. IBM AI 2024【4】
Multimodal consistency CLIP‑similarity для VLMs; low similarity ⇒ галлюцинация. Hallucinations in VLMs (CVPR‑2025)【12】

4.3. Бенчмарки

Бенчмарк Год Основные задачи Показатели
HalluLens (ACL 2025) 2025 General knowledge (wiki‑queries, non‑existent entities) Recall@32, Precision, F1, False Refusal, False Acceptance
Halueval (EMNLP 2023) 2023 Wikipedia factual claim verification FactScore (precision@k), Consistency
PHANTOM (NeurIPS 2025) 2025 Financial long‑context QA Detection accuracy, latency
MedHall (arXiv 2025) 2025 Medical QA, drug interaction extraction Clinical relevance, false‑positive rate
Halwasa (LREC‑COLING 2024) 2024 Arabic text Entity‑/relation‑consistency
U HGEval (ACL 2024) 2024 Chinese language Hallucination per token
CodeHallucination (ICLR 2024) 2024 Code generation Compile‑time success, correctness
TRUEFALL (NeurIPS 2024) 2024 Commonsense reasoning (TruthfulQA) Truthful rate

Эти бенчмарки позволяют коррелировать базовые показатели (precision, recall) с extrinsic (RAG‑based) и intrinsic (self‑consistency) детекциями.

5. Способы смягчения (mitigation)

5.1. Тренировочные подходы

  • RLHF / RLAIF с фактуальностью‑reward – OpenAI (2024) сократило factual error‑rate на Halueval на ≈30 %.
  • Direct Preference Optimization (DPO) – Liu et al. (2024) улучшили FactScore на TriviaQA на +4 %.
  • Contrastive decoding – Nakano et al. (2024) снизили hallucination frequency на NAACL‑2025 synthetic translation dataset на 96 %.
  • Fact‑grounded fine‑tuning – Lakera (2025) использовал синтетические «hard‑to‑hallucinate» примеры, уменьшив hallucination rate до 1‑2 % на LongWiki.
  • Model editing (ROME, MEMIT) – Meng et al. (2023) корректировали конкретные факты в модель, уменьшая entity‑level hallucination на 20‑30 %.
  • «I‑don’t‑know» token – OpenAI (2025) показал, что введение токена «I‑don’t‑know» и штраф за его отсутствие повышает calibrated confidence и снижает галлюцинации.

5.2. Архитектурные модификации

Методика Как устраняет Эффективность
RAG Доступ к актуальным документам → генерация ограничена фактами. HalluLens RAG‑augmented – < 5 % hallucination (vs. 15 % baseline).
Hybrid LLM‑Agent Внешний контроль (knowledge‑base, verifier) после генерации. MDPI 2025 taxonomy – ~40 % extrinsic reduction.
Self‑Verification Второй LLM проверяет каждый факт (self‑check). Self‑Debate (2025) – 30‑40 % логического снижения.
Constrained decoding (Tree‑of‑Thoughts, MoT) Ограничивает пространство ответов шагами. Method‑of‑Thoughts (2024) – 12 % уменьшение MathQA hallucination.
Confidence‑head Доп. нейронный слой предсказывает уверенность; ниже порог ⇒ подавление токенов. IBM 2024 confidence‑calibration – 12 % улучшение Halueval.

5.3. Prompt & декодинг‑оптимизация

  • Chain‑of‑Thought (CoT) – требует разбиения задачи на шаги, что служит внутренней проверкой.
  • Fact‑Consistency prompts – «If unsure, say “I don’t know”» + cite source; в целом повышают refusal‑rate, но требуют downstream verification.
  • Constraint‑based prompting – явные ограничения («не упоминать даты»).
  • Temperature scheduling – низкий temperature в проверочных этапах, высокий в креативных; Bang & Madotto (2023) показывают корреляцию.

5.4. Пост‑генерационный контроль

Инструмент Принцип Пример
External fact‑checker API Сравнение утверждений с структурированным KB. GPT‑4o integrated fact‑checker【22】
Citation extraction & validation Предсказание citation ID; отсутствие → flag. OpenAI citation predictor【22】
LLM‑as‑judge / Debate Оценка ответа вторым LLM, выбор лучшего. Self‑Debate (2025)【24】
User‑feedback loops «Is this answer correct?» → RL‑loop, пере‑fine‑tune. Iterative RLHF pilot (2025)
Safety‑refusal policy Автоматическое отказ от ответа, если уверенность ниже threshold. RLHF‑refusal (OpenAI 2024)
Monitoring dashboards Реальный time tracking hallucination‑rate per prompt. Hallucination‑Dashboard (Upstage AI, 2025)

6. Оценка и сравнение

  • HalluLens (ACL 2025) – показывает, что более крупные модели имеют меньшую false refusal (правильные отказы) но высокую false acceptance (неправильные утверждения) для non‑existent entities.
  • PHANTOM (NeurIPS 2025) – диагностирует долготекстовые финансовые галлюцинации, где стандартные retrievers часто упускают важные факты.
  • MedHall – подчёркивает необходимость медицинского grounding, иначе дозировки и препараты могут быть ошибочными в 20‑30 % случаев.
  • CodeHallucination – RAG с документацией снижает hallucination rate в код‑генерации с 3 % до < 1 % (ICLR 2024).

Эти бенчмарки позволяют оценивать baseline (GPT‑4o, Claude‑3, Llama‑2‑70B) и улучшенные версии (contrastive decoding, RAG‑augmented, self‑verification).

7. Перспективы (2025‑2026)

Тренд Описание
Calibrated uncertainty & «I‑don’t‑know» learning OpenAI 2025 показывает, что RLHF с factuality‑reward и calibrated confidence может снизить factuality error на 40 %.
Live RAG (streaming retrieval) Интеграция с поисковыми API (Google, Bing) в реальном времени, позволяя корректировать ответ в ходе генерации.
Causal probing of hallucination sources Методы (CausalLang 2024) выявляют, какой фрагмент обучающих данных вносит наибольший bias в конкретные hallucination‑типы.
Self‑correction & iterative refinement Генерация «proof‑sketch» + символьная проверка (CoR‑2024) сокращает логические hallucination‑rates на 30‑50 %.
Unified taxonomy & standard metrics Планируется ISO/IEC HTSS (Hallucination Test Suite) с атрибутами: confidence, factuality, faithfulness, domain.
Regulatory compliance EU AI Act (draft 2025) требует disclamer о hallucination‑risk в high‑impact сервисах.
Open‑source tooling HALLU‑Detect (GitHub 2025) объединяет несколько detector‑methods в один CLI, снижая hallucination‑incidents на 10‑15 % в коммерческих chatbot‑deployments.