2 апреля 2026 года Google DeepMind выпустила Gemma 4 — семейство открытых языковых моделей под лицензией Apache 2.0. Это значит: бесплатно, с открытым доступом к весам, без привязки к облаку.
Вместе с моделями Google выкатила приложение Google AI Edge Gallery, которое доступно на Android и iOS. Через него можно скачать любую модель Gemma 4 и запустить её полностью локально, без подключения к интернету.
Google выпустила четыре размера, но для телефонов актуальны два меньших:
| Модель | Тип | Где работает | Для чего |
|---|---|---|---|
| Gemma E2B | Effective 2B | Телефон | Быстрый чат, тексты, простые задачи |
| Gemma E4B | Effective 4B | Телефон (от ~8GB RAM) | Сложные рассуждения, анализ изображений |
| Gemma 26B MoE | Mixture of Experts, 4B активных | Ноутбук (16GB+ RAM) | Кодинг, мульти-агентные задачи |
| Gemma 31B | Dense | Ноутбук/ПК (32GB+ RAM) | Максимальное качество, фронт-уровень |
Буква «E» означает «Effective» — эффективное количество параметров. Это MoE-модели (Mixture of Experts), которые активируют только часть весов при каждом запросе. Результат — качество модели с большим числом параметров при существенно меньших требованиях к памяти.
| Модель | Минимум RAM | Размер файла | Рекомендуемые устройства |
|---|---|---|---|
| E2B | 6 GB | 1.5 GB | Большинство Android от 2021+ |
| E4B | 8 GB | 3–4 GB | Pixel 7+, Samsung S23+ |
| 26B MoE | 16 GB | ~10 GB | Ноутбук, не телефон |
| 31B Dense | 32 GB | ~20 GB | Мощный ПК, не телефон |
Телефоны с выделенным NPU (Qualcomm Snapdragon 8 Gen 2+ или Google Tensor) работают заметно быстрее — инференс идёт на нейропроцессоре, а не на CPU.
Если приложение ещё не доступно в вашем регионе, установите как APK:
.apk файл и установитеДля iPhone приложение Google AI Edge Gallery доступно в App Store. Логика та же: скачали → выбрали модель → работаете офлайн.
Альтернативы для продвинутых пользователей:
Да, и это даёт существенно больше возможностей. Три варианта:
ollama run gemma4
Ollama автоматически скачает модель и запустит локальный API. На Apple Silicon работает из коробки с Metal-ускорением. Gemma 4 в Ollama впервые получила полноценную поддержку системного промпта и нативного мультимодального режима.
Google также выпустил LiteRT-LM — SDK для разработчиков, которые хотят встроить Gemma 4 в свои мобильные приложения. Под капотом используется LiteRT (ранее TensorFlow Lite) и MediaPipe для оптимизации инференса на GPU/NPU.
Это не просто «поговорить с чат-ботом». Google специально позиционирует Gemma 4 как модель для мульти-агентных рабочих потоков. Функция «Agent Skills» в Google AI Edge Gallery показывает несколько сценариев:
«Gemma 4 переопределяет то, что возможно на вашем собственном оборудовании. Теперь это не просто чат-бот, а платформа для агентов и автономных сценариев.» — Google DeepMind Blog, 2 апреля 2026
Не всё так однозначно, давайте разберём объективно:
| Параметр | Gemma E4B (на телефоне) | Облачные LLM (ChatGPT, Claude и др.) |
|---|---|---|
| Приватность | ✅ Данные не покидают устройство | ⚡ Запросы идут на сервер |
| Бесплатно | ✅ Навсегда, после скачивания | ❌ Подписка или по токенам |
| Работает без интернета | ✅ Полностью офлайн | ❌ Только с подключением |
| Скорость | ⚡ Зависит от телефона (3–15 сек) | ⚡ Обычно 5–20 сек |
| Качество кода | ⚡ Неплохо для простых задач | ✅ Значительно выше на сложных |
| Контекст | ⚡ ~8K токенов | ✅ 128K+ токенов |
| Языки | ✅ >140 языков | ✅ 100+ |
До Gemma 4 «локальный AI на телефоне» был либо демо-игрушкой с крошечными моделями, либо тяжёлой настройкой через командную строку. Google сделал три вещи:
Если вы ещё не работали с локальными нейросетями — рекомендую начать именно с этого. Скачайте Claude Code для серьёзного кодинга, а Gemma 4 установите на телефон как карманный AI-помощник, работающий всегда и везде. Подробнее о MCP-серверах и подключении AI к другим сервисам читайте в нашем блоге.
Локальный AI, облачный AI, мульти-агентные системы — разбираем всё. Пишите — обсудим задачу.
→ Написать в Telegram