GEPA (Genetic-Pareto) — это алгоритм автоматической оптимизации промптов, который объединяет эволюционный поиск с рефлексивным анализом ошибок. Исследование принято на ICLR 2026 (Oral — это высшая категория на конференции), код открыт на GitHub.
Суть проблемы, которую решает GEPA: большинство команд либо тратят деньги на дорогие модели, либо теряют качество на дешёвых. Причина — промпт написан один раз, вручную, по ощущениям. Никто не тестирует 50 вариантов системного промпта на реальных данных.
GEPA делает именно это — но автоматически. Алгоритм генерирует варианты промптов, тестирует их, выбирает лучшие по нескольким метрикам одновременно (Pareto-оптимизация), а потом повторяет цикл. Результат: модель класса Claude Haiku начинает давать результаты, сравнимые с Opus — на задачах, где раньше это казалось невозможным.
Для бизнеса это означает одно: можно сократить расходы на AI в 5–10 раз, не жертвуя качеством. Если у вас в продукте 10 000 AI-запросов в день — экономия становится очень ощутимой. Подробнее о том, как AI встраивается в бизнес-процессы, читайте в нашем материале про AI агентах для бизнеса.
GEPA работает по принципу естественного отбора, применённого к промптам. Нет случайных мутаций — только умный анализ ошибок и целенаправленные улучшения. Вот четыре шага цикла.
GEPA берёт исходный промпт и генерирует несколько его вариаций. Не просто перефразировок — алгоритм анализирует, на каких примерах из датасета текущий промпт проваливается, и целенаправленно генерирует новые версии, чтобы закрыть слабые места. Это называется рефлексивная эволюция: модель смотрит на свои ошибки и предлагает, как их исправить на уровне инструкции.
Каждый вариант промпта прогоняется через набор реальных примеров (ваш датасет или стандартные бенчмарки). Алгоритм собирает метрики: точность, скорость, соответствие формату, стоимость запроса. Не одна метрика — несколько. Это и есть Pareto-подход: ищем промпты, которые хороши сразу по нескольким критериям, а не жертвуют одним ради другого.
После тестирования GEPA строит Pareto-фронт — множество «непобедимых» промптов, где улучшить одну метрику без ухудшения другой уже нельзя. Из этого множества выбираются лучшие кандидаты для следующего поколения. Слабые варианты отсеиваются.
Отобранные промпты снова идут в шаг 1. Цикл повторяется от 5 до 20 итераций в зависимости от сложности задачи. С каждым кругом промпты становятся точнее, конкретнее, лучше адаптированы под целевую модель. Итог — промпт, который буквально «заточен» под вашу дешёвую модель на вашей конкретной задаче.
Допустим, вы генерируете описания карточек товаров для интернет-магазина. Стандартный промпт даёт нормальный результат на Opus, но на Haiku — шаблонный, скучный текст.
Вы подготавливаете датасет: 50–100 примеров «плохих» и «хороших» описаний. Запускаете GEPA на этом датасете с моделью Haiku. Алгоритм за несколько часов (и небольшие расходы на API) находит промпт, который учитывает специфику дешёвой модели — добавляет нужные ограничения, примеры, форматирование. Haiku по этому промпту начинает писать описания, неотличимые от Opus.
Разница в стоимости: Claude Haiku примерно в 10–20 раз дешевле Opus за токен. При 10 000 запросов в день это сотни долларов экономии в месяц — при том же качестве результата.
GEPA публично доступен на GitHub. Установка стандартная для Python-проектов:
git clone https://github.com/gepa-ai/gepapip install -r requirements.txtТакже GEPA интегрирован в фреймворк DeepEval — если вы уже используете его для оценки качества LLM, подключить оптимизацию промптов можно в несколько строк кода. Это особенно удобно, если у вас уже есть тест-сьют с метриками качества.
Эволюционная оптимизация промптов наиболее полезна в конкретных сценариях:
Генерация тысяч описаний товаров, SEO-текстов, ответов на отзывы. Объём большой — каждый рубль на токены важен. GEPA позволяет перейти на Haiku/Mistral без потери качества.
Классификация обращений, генерация ответов, маршрутизация тикетов — высокочастотные задачи с понятными метриками качества. Идеально для GEPA: есть датасет, есть критерий успеха.
Структурированное извлечение информации из текстов, классификация документов, анализ тональности. Задачи, где точность — главная метрика, а стоимость запроса критична.
Системные промпты для многошаговых агентов — небольшое улучшение на каждом шаге даёт большой прирост на длинных цепочках. Тема, которую мы разбираем подробно в статье про AI агентах для бизнеса.
| Параметр | Ручная оптимизация | GEPA (автоматическая) |
|---|---|---|
| Время | Часы / дни на итерацию | Автоматически, параллельно |
| Масштаб тестирования | 3–10 примеров «на глаз» | Весь датасет (50–1000+ примеров) |
| Метрики | Субъективная оценка | Количественные, автоматические |
| Учёт специфики модели | Зависит от опыта автора | Адаптируется к конкретной модели |
| Воспроизводимость | Низкая — «магия» промптинга | Высокая — задокументированный процесс |
| Прирост качества | ~5–15% от случая к случаю | +10–12% над лучшими конкурентами |
Ручной промптинг — это навык, который хорош для старта. Но если у вас продакшн-система с реальной нагрузкой, GEPA превращает оптимизацию промптов из искусства в инженерную задачу. Аналогично тому, как Claude Code автоматизирует написание кода — GEPA автоматизирует написание промптов.
GEPA — это инструмент, который меняет логику работы с AI-моделями. Вместо гонки за самой дорогой моделью вы инвестируете в качество промпта. Один раз настроили — и дешёвая модель работает как дорогая.
Алгоритм принят на ICLR 2026, обгоняет конкурентов на 10–12%, код открыт. Если у вас есть AI в продакшне с реальной нагрузкой — GEPA это не эксперимент, это экономия бюджета.
Разбираем AI-инструменты, которые реально работают в продакшне. Подписывайтесь на Telegram — там без воды, только практика.
Подписаться в Telegram →