Эти бенчмарки позволяют коррелировать базовые показатели (precision, recall) с extrinsic (RAG‑based) и intrinsic (self‑consistency) детекциями.
5. Способы смягчения (mitigation)
5.1. Тренировочные подходы
RLHF / RLAIF с фактуальностью‑reward – OpenAI (2024) сократило factual error‑rate на Halueval на ≈30 %.
Direct Preference Optimization (DPO) – Liu et al. (2024) улучшили FactScore на TriviaQA на +4 %.
Contrastive decoding – Nakano et al. (2024) снизили hallucination frequency на NAACL‑2025 synthetic translation dataset на 96 %.
Fact‑grounded fine‑tuning – Lakera (2025) использовал синтетические «hard‑to‑hallucinate» примеры, уменьшив hallucination rate до 1‑2 % на LongWiki.
Model editing (ROME, MEMIT) – Meng et al. (2023) корректировали конкретные факты в модель, уменьшая entity‑level hallucination на 20‑30 %.
«I‑don’t‑know» token – OpenAI (2025) показал, что введение токена «I‑don’t‑know» и штраф за его отсутствие повышает calibrated confidence и снижает галлюцинации.
5.2. Архитектурные модификации
Методика
Как устраняет
Эффективность
RAG
Доступ к актуальным документам → генерация ограничена фактами.
Temperature scheduling – низкий temperature в проверочных этапах, высокий в креативных; Bang & Madotto (2023) показывают корреляцию.
5.4. Пост‑генерационный контроль
Инструмент
Принцип
Пример
External fact‑checker API
Сравнение утверждений с структурированным KB.
GPT‑4o integrated fact‑checker【22】
Citation extraction & validation
Предсказание citation ID; отсутствие → flag.
OpenAI citation predictor【22】
LLM‑as‑judge / Debate
Оценка ответа вторым LLM, выбор лучшего.
Self‑Debate (2025)【24】
User‑feedback loops
«Is this answer correct?» → RL‑loop, пере‑fine‑tune.
Iterative RLHF pilot (2025)
Safety‑refusal policy
Автоматическое отказ от ответа, если уверенность ниже threshold.
RLHF‑refusal (OpenAI 2024)
Monitoring dashboards
Реальный time tracking hallucination‑rate per prompt.
Hallucination‑Dashboard (Upstage AI, 2025)
6. Оценка и сравнение
HalluLens (ACL 2025) – показывает, что более крупные модели имеют меньшую false refusal (правильные отказы) но высокую false acceptance (неправильные утверждения) для non‑existent entities.
PHANTOM (NeurIPS 2025) – диагностирует долготекстовые финансовые галлюцинации, где стандартные retrievers часто упускают важные факты.
MedHall – подчёркивает необходимость медицинского grounding, иначе дозировки и препараты могут быть ошибочными в 20‑30 % случаев.
CodeHallucination – RAG с документацией снижает hallucination rate в код‑генерации с 3 % до < 1 % (ICLR 2024).
Эти бенчмарки позволяют оценивать baseline (GPT‑4o, Claude‑3, Llama‑2‑70B) и улучшенные версии (contrastive decoding, RAG‑augmented, self‑verification).
7. Перспективы (2025‑2026)
Тренд
Описание
Calibrated uncertainty & «I‑don’t‑know» learning
OpenAI 2025 показывает, что RLHF с factuality‑reward и calibrated confidence может снизить factuality error на 40 %.
Live RAG (streaming retrieval)
Интеграция с поисковыми API (Google, Bing) в реальном времени, позволяя корректировать ответ в ходе генерации.
Causal probing of hallucination sources
Методы (CausalLang 2024) выявляют, какой фрагмент обучающих данных вносит наибольший bias в конкретные hallucination‑типы.
Планируется ISO/IEC HTSS (Hallucination Test Suite) с атрибутами: confidence, factuality, faithfulness, domain.
Regulatory compliance
EU AI Act (draft 2025) требует disclamer о hallucination‑risk в high‑impact сервисах.
Open‑source tooling
HALLU‑Detect (GitHub 2025) объединяет несколько detector‑methods в один CLI, снижая hallucination‑incidents на 10‑15 % в коммерческих chatbot‑deployments.