ИИ-ассистенты уверенно рассказывают о несуществующих законах, выдумывают цитаты и называют неверные цифры — и делают это с интонацией профессора. Это явление называют галлюцинациями. В 2026 году у нас наконец есть твёрдые цифры: Grok ошибается в 8% случаев, ChatGPT — в 35%, Gemini — в 38%, Claude — от 4.4%. Разбираемся, что за этим стоит и кому из моделей можно доверять реальные задачи.
Что такое галлюцинации нейросетей
Галлюцинация в контексте LLM — это когда модель генерирует уверенно звучащую информацию, которой не существует. Не «я не знаю», а конкретный ответ с датами, именами и ссылками — только всё это выдумано.
Точнее было бы называть это конфабуляцией: мозг (или модель) заполняет пробелы в памяти правдоподобными, но ложными данными. Большие языковые модели не «знают» факты — они предсказывают следующий токен на основе паттернов в обучающем корпусе. Когда паттерна нет, модель всё равно генерирует что-то статистически вероятное — и это «что-то» может быть полной выдумкой.
Реальные цифры: кто ошибается чаще всего
Данные за 2025–2026 год по галлюцинациям — впервые сопоставимые и достаточно объёмные. Vectara Hallucination Leaderboard, независимые тесты IXBT и отчёт Suprmind дают следующую картину:
(минимум)
Отдельно стоит отметить Gemini 2.0 Flash: в узком тесте Vectara по суммаризации документов он показал 0.7% галлюцинаций — лучший результат среди всех протестированных моделей. Но это специфический бенчмарк, а не универсальная точность.
| Модель | Галлюцинации | Сильные стороны | Слабые стороны |
|---|---|---|---|
| Claude Sonnet/Opus | 4.4–10.1% | Длинный контекст, точность на документах | Иногда уклончив, отказывается от спорных тем |
| Grok (xAI) | ~8% | Актуальные данные, доступ к X/Twitter | Меньше независимых бенчмарков |
| Gemini 2.0 Flash | 0.7%* | Мультимодальность, суммаризация | *Только на специфическом бенчмарке |
| ChatGPT (GPT-4o) | ~35% | Универсальность, экосистема плагинов | Высокий процент ошибок на фактических вопросах |
| Gemini (стандарт) | ~38% | Интеграция с Google Workspace | Самый высокий процент галлюцинаций в топе |
Важная оговорка: цифры сильно зависят от типа задачи. Модель может отлично справляться с кодом, но выдумывать в вопросах истории — и наоборот.
Разбор по моделям: где конкретно ошибаются
Claude: наименьший процент, но не без проблем
Claude от Anthropic последовательно занимает верхние строчки по точности фактов. Модель обучена с акцентом на «конституционный ИИ» — набор принципов, которые заставляют её признавать неопределённость вместо того, чтобы выдумывать ответ.
Тем не менее Claude Opus даёт до 10.1% галлюцинаций на определённых типах вопросов — особенно на редких исторических фактах и специфических технических деталях за пределами обучающей выборки. Более подробно о возможностях Claude мы писали в обзоре Claude Code.
Grok: неожиданно хорошие результаты
Grok от xAI (Илон Маск) показывает 8% галлюцинаций — цифра, которую сложно проверить независимо, но несколько тестов её подтверждают. Преимущество Grok — доступ к реальным данным из X (Twitter) в режиме реального времени, что снижает ошибки на актуальных событиях.
Слабое место: меньше публичных независимых бенчмарков по сравнению с Anthropic и Google. Самооценки компании нужно воспринимать с поправкой.
ChatGPT: популярность не равно точность
35% галлюцинаций — это много для самой массовой модели. ChatGPT особенно уязвим в нескольких сценариях:
- Вопросы о реальных людях — выдуманные биографии и цитаты
- Юридические и медицинские вопросы — уверенная, но неверная информация
- Ссылки на источники — модель регулярно генерирует несуществующие URL и DOI
- Математика вне базовых операций — ошибки в сложных вычислениях
Знаменитый случай: ChatGPT уверенно описал несуществующий научный термин «cycloidal inverted electromagnon» с полной историей «открытия», датами и именами учёных. Всё — выдумка.
Gemini: разрыв между Flash и стандартной версией
Стандартный Gemini даёт около 38% галлюцинаций — хуже ChatGPT. При этом Gemini 2.0 Flash на задачах суммаризации показал 0.7%. Разрыв в 50 раз между версиями одной компании говорит о том, что Google целенаправленно оптимизирует отдельные сценарии, а не решает проблему в целом.
Интеграция с Google Search помогает: версии с доступом к поиску показывают значительно меньше ошибок на фактических вопросах. Без поиска — падение точности до 28% и выше.
Когда галлюцинации особенно опасны
Проблема не в том, что ИИ иногда ошибается. Проблема в том, что он ошибается с полной уверенностью, без предупреждений. Это делает галлюцинации особенно критичными в:
- Медицине — дозировки, противопоказания, диагностика
- Юриспруденции — нормы закона, прецеденты, сроки
- Финансах — ставки, условия договоров, налоговые правила
- Науке — ссылки на исследования, которых не существует
- Кадровых решениях — проверка биографий через ИИ
В менее критичных сферах — написание текстов, брейнсторминг, объяснение концепций — даже 35% галлюцинаций могут быть приемлемы при условии, что результат проверяется человеком.
Почему reasoning-модели могут галлюцинировать больше
Неожиданный вывод из бенчмарков Vectara: модели с расширенными возможностями «рассуждения» (reasoning models, например o3) показали 10%+ галлюцинаций — хуже ряда более простых моделей.
Парадокс объясняется так: reasoning-модели генерируют длинные цепочки рассуждений, и каждый шаг может привнести ошибку, которая затем принимается за истину и строится на ней следующий шаг. Чем длиннее цепочка — тем выше накопленная погрешность.
Это важно учитывать при выборе модели для задач, где нужна фактическая точность, а не логические рассуждения.
Как снизить галлюцинации на практике
Полностью избавиться от галлюцинаций невозможно при текущей архитектуре LLM. Но можно их существенно сократить:
- RAG (Retrieval-Augmented Generation) — подключаете модель к актуальной базе знаний. Модель работает с реальными документами, а не с памятью обучения. Снижение галлюцинаций — до 60%
- Явный запрос на неопределённость — добавьте в промпт: «Если ты не уверен — скажи об этом прямо, не выдумывай». Простая инструкция, которая реально работает
- Верификация через поиск — используйте модели с веб-доступом (Grok, Gemini с поиском, Perplexity) для фактических вопросов
- Разбивка на шаги — сложные запросы разбивайте на части. Меньше пространства для одной большой ошибки
- Temperature = 0 — для фактических задач снижайте «температуру» до нуля. Модель становится детерминированной и менее склонной к выдумкам
Выводы: кому доверять в 2026 году
| Задача | Рекомендуемая модель | Почему |
|---|---|---|
| Работа с документами, суммаризация | Claude / Gemini Flash | Низкий % галлюцинаций на структурированных данных |
| Актуальные новости, текущие события | Grok / Perplexity | Доступ к реальным данным в реальном времени |
| Написание текстов, брейнсторминг | ChatGPT / Claude | Факты не критичны, качество генерации важнее |
| Юридические, медицинские вопросы | Ни одна без верификации | 35–38% галлюцинаций неприемлемы для критических решений |
| Программирование | Claude Code / GPT-4o | Код верифицируется запуском — галлюцинации видны сразу |
Если вы сравниваете Claude и ChatGPT для бизнеса — мы разбирали это подробнее в статье ChatGPT vs Claude для бизнеса. А как ИИ-агенты помогают автоматизировать реальные процессы без риска галлюцинаций — в материале про AI-агентов для бизнеса.
Главный вывод прост: выбор модели — это не вопрос бренда или цены. Это вопрос того, насколько вы можете позволить себе ошибку в конкретной задаче. При 38% галлюцинаций Gemini отлично пишет посты в соцсети — и убьёт вас в судебном иске.
Нужна AI-автоматизация без галлюцинаций?
Настраиваем AI-агентов с RAG и верификацией под ваш бизнес. Пишите в Telegram — разберём задачу бесплатно.
Написать в Telegram