AI-инструменты 3 апреля 2026 ⏱ 6 мин

GEPA: как выжать качество Claude Opus из дешёвых моделей в 2026 году

Вы платите за Claude Opus или GPT-4o, потому что думаете: дорогая модель = лучший результат. Но что если проблема не в модели, а в промпте? GEPA — это эволюционный алгоритм оптимизации промптов, который принят на ICLR 2026 и обгоняет ручную настройку на 10–12%. Берёте Haiku, даёте ему правильный промпт — и получаете качество Opus. Разбираем, как это работает.

Что такое GEPA и почему это важно для бизнеса

GEPA (Genetic-Pareto) — это алгоритм автоматической оптимизации промптов, который объединяет эволюционный поиск с рефлексивным анализом ошибок. Исследование принято на ICLR 2026 (Oral — это высшая категория на конференции), код открыт на GitHub.

Суть проблемы, которую решает GEPA: большинство команд либо тратят деньги на дорогие модели, либо теряют качество на дешёвых. Причина — промпт написан один раз, вручную, по ощущениям. Никто не тестирует 50 вариантов системного промпта на реальных данных.

GEPA делает именно это — но автоматически. Алгоритм генерирует варианты промптов, тестирует их, выбирает лучшие по нескольким метрикам одновременно (Pareto-оптимизация), а потом повторяет цикл. Результат: модель класса Claude Haiku начинает давать результаты, сравнимые с Opus — на задачах, где раньше это казалось невозможным.

📊 Данные из исследования: GEPA обгоняет лидирующий оптимизатор промптов MIPROv2 на более чем 10 процентных пунктов. На задаче AIME-2025 прирост составил +12%.

Для бизнеса это означает одно: можно сократить расходы на AI в 5–10 раз, не жертвуя качеством. Если у вас в продукте 10 000 AI-запросов в день — экономия становится очень ощутимой. Подробнее о том, как AI встраивается в бизнес-процессы, читайте в нашем материале про AI агентах для бизнеса.

Как работает эволюционный цикл оптимизации

GEPA работает по принципу естественного отбора, применённого к промптам. Нет случайных мутаций — только умный анализ ошибок и целенаправленные улучшения. Вот четыре шага цикла.

Шаг 1 — Генерация вариантов промпта

GEPA берёт исходный промпт и генерирует несколько его вариаций. Не просто перефразировок — алгоритм анализирует, на каких примерах из датасета текущий промпт проваливается, и целенаправленно генерирует новые версии, чтобы закрыть слабые места. Это называется рефлексивная эволюция: модель смотрит на свои ошибки и предлагает, как их исправить на уровне инструкции.

Шаг 2 — Тестирование на реальных задачах

Каждый вариант промпта прогоняется через набор реальных примеров (ваш датасет или стандартные бенчмарки). Алгоритм собирает метрики: точность, скорость, соответствие формату, стоимость запроса. Не одна метрика — несколько. Это и есть Pareto-подход: ищем промпты, которые хороши сразу по нескольким критериям, а не жертвуют одним ради другого.

Шаг 3 — Отбор лучших вариантов

После тестирования GEPA строит Pareto-фронт — множество «непобедимых» промптов, где улучшить одну метрику без ухудшения другой уже нельзя. Из этого множества выбираются лучшие кандидаты для следующего поколения. Слабые варианты отсеиваются.

Шаг 4 — Повтор цикла

Отобранные промпты снова идут в шаг 1. Цикл повторяется от 5 до 20 итераций в зависимости от сложности задачи. С каждым кругом промпты становятся точнее, конкретнее, лучше адаптированы под целевую модель. Итог — промпт, который буквально «заточен» под вашу дешёвую модель на вашей конкретной задаче.

Практический пример: копирайтинг с Haiku вместо Opus

Допустим, вы генерируете описания карточек товаров для интернет-магазина. Стандартный промпт даёт нормальный результат на Opus, но на Haiku — шаблонный, скучный текст.

Вы подготавливаете датасет: 50–100 примеров «плохих» и «хороших» описаний. Запускаете GEPA на этом датасете с моделью Haiku. Алгоритм за несколько часов (и небольшие расходы на API) находит промпт, который учитывает специфику дешёвой модели — добавляет нужные ограничения, примеры, форматирование. Haiku по этому промпту начинает писать описания, неотличимые от Opus.

💡 Что происходит под капотом

GEPA замечает, что Haiku «забывает» указывать материал — и добавляет явное напоминание в промпт
Замечает, что тексты слишком длинные — добавляет ограничение по символам
Замечает, что теряется структура — добавляет пример формата
Каждое улучшение проверяется на всём датасете, а не на одном примере

Разница в стоимости: Claude Haiku примерно в 10–20 раз дешевле Opus за токен. При 10 000 запросов в день это сотни долларов экономии в месяц — при том же качестве результата.

Как установить и запустить GEPA

GEPA публично доступен на GitHub. Установка стандартная для Python-проектов:

Установка

Клонируйте репозиторий: git clone https://github.com/gepa-ai/gepa
Установите зависимости: pip install -r requirements.txt
Настройте API-ключи для вашей модели (OpenAI, Anthropic и другие)
Подготовьте датасет: примеры входных данных + ожидаемые выходы
Запустите оптимизацию с указанием целевой модели и метрик

Также GEPA интегрирован в фреймворк DeepEval — если вы уже используете его для оценки качества LLM, подключить оптимизацию промптов можно в несколько строк кода. Это особенно удобно, если у вас уже есть тест-сьют с метриками качества.

⚙️ GEPA работает поверх любой LLM-платформы: OpenAI, Anthropic, Mistral, локальные модели через Ollama. Главное — доступ к API и датасет с примерами.

Кому это нужно: кейсы применения

Эволюционная оптимизация промптов наиболее полезна в конкретных сценариях:

🏪 E-commerce и маркетплейсы

Генерация тысяч описаний товаров, SEO-текстов, ответов на отзывы. Объём большой — каждый рубль на токены важен. GEPA позволяет перейти на Haiku/Mistral без потери качества.

📞 Поддержка и чат-боты

Классификация обращений, генерация ответов, маршрутизация тикетов — высокочастотные задачи с понятными метриками качества. Идеально для GEPA: есть датасет, есть критерий успеха.

📊 Аналитика и извлечение данных

Структурированное извлечение информации из текстов, классификация документов, анализ тональности. Задачи, где точность — главная метрика, а стоимость запроса критична.

🤖 AI-агенты и автоматизация

Системные промпты для многошаговых агентов — небольшое улучшение на каждом шаге даёт большой прирост на длинных цепочках. Тема, которую мы разбираем подробно в статье про AI агентах для бизнеса.

Сравнение: ручная vs автоматическая оптимизация промптов

Параметр	Ручная оптимизация	GEPA (автоматическая)
Время	Часы / дни на итерацию	Автоматически, параллельно
Масштаб тестирования	3–10 примеров «на глаз»	Весь датасет (50–1000+ примеров)
Метрики	Субъективная оценка	Количественные, автоматические
Учёт специфики модели	Зависит от опыта автора	Адаптируется к конкретной модели
Воспроизводимость	Низкая — «магия» промптинга	Высокая — задокументированный процесс
Прирост качества	~5–15% от случая к случаю	+10–12% над лучшими конкурентами

Ручной промптинг — это навык, который хорош для старта. Но если у вас продакшн-система с реальной нагрузкой, GEPA превращает оптимизацию промптов из искусства в инженерную задачу. Аналогично тому, как Claude Code автоматизирует написание кода — GEPA автоматизирует написание промптов.

FAQ

Нужна ли дорогая модель для самой оптимизации?

GEPA использует «оптимизирующую» модель для генерации вариантов промптов и анализа ошибок — она может быть более мощной. Но целевая модель, которую вы оптимизируете, — ваша дешёвая рабочая лошадка. Расходы на оптимизацию — разовые, экономия на рабочей модели — постоянная.

Сколько примеров нужно в датасете?

Минимум — 20–50 размеченных примеров. Чем больше и разнообразнее датасет, тем лучше GEPA находит слабые места промпта. Для начала хватит 50–100 реальных кейсов из вашего приложения.

GEPA работает только с текстовыми задачами?

Основные кейсы — текстовые: классификация, генерация, извлечение данных, многошаговые рассуждения. В исследовании GEPA показал результаты на математических задачах (AIME) и задачах ретривала (HotpotQA). Для мультимодальных задач потребуется адаптация.

Чем GEPA отличается от DSPy и других оптимизаторов?

DSPy (включая MIPROv2) — популярный фреймворк для оптимизации LLM-программ. GEPA обгоняет MIPROv2 на 10+ процентных пунктов на бенчмарках. Ключевое отличие — рефлексивный анализ ошибок: GEPA не просто мутирует промпты случайно, а анализирует, почему конкретные примеры провалились, и целенаправленно исправляет эти места.

Итог

GEPA — это инструмент, который меняет логику работы с AI-моделями. Вместо гонки за самой дорогой моделью вы инвестируете в качество промпта. Один раз настроили — и дешёвая модель работает как дорогая.

Алгоритм принят на ICLR 2026, обгоняет конкурентов на 10–12%, код открыт. Если у вас есть AI в продакшне с реальной нагрузкой — GEPA это не эксперимент, это экономия бюджета.

Подготовьте датасет из 50–100 реальных примеров
Выберите дешёвую целевую модель (Haiku, Mistral, Gemini Flash)
Запустите GEPA через GitHub или DeepEval
Сравните результаты с текущим промптом на всём датасете
Деплойте — и считайте сэкономленные деньги

Хотите внедрить GEPA в свой продукт?

Разбираем AI-инструменты, которые реально работают в продакшне. Подписывайтесь на Telegram — там без воды, только практика.

Подписаться в Telegram →