AI-новости 1 апреля 2026 · 5 мин чтения

Qwen3.5-Omni: Alibaba выпустила ИИ, который видит, слышит и кодит в реальном времени

Пока все смотрят на Anthropic и OpenAI, Alibaba выпустила Qwen3.5-Omni — модель, которая одновременно обрабатывает текст, изображения, аудио и видео. Обходит Gemini по аудиобенчмаркам, понимает 113 языков и умеет превратить вашу идею в рабочий код прямо во время разговора с камерой. Разбираем, что это такое и зачем вам это знать.

Числа, которые важны

113
языков для распознавания речи
36
языков для генерации речи
10+ ч
аудио в одном контексте
256K
токенов контекстного окна

Для сравнения: предыдущая версия Qwen-Omni поддерживала 19 языков для распознавания речи и 10 для генерации. Прирост — в 6 и 3.5 раза соответственно за один релиз.

Что такое «омни-модальность» и чем Qwen3.5-Omni отличается от GPT-4o

Большинство «мультимодальных» моделей — это несколько специализированных модулей, склеенных вместе. Текстовая модель, отдельная модель для картинок, отдельная для аудио. Они работают последовательно и плохо «понимают» связи между модальностями.

Qwen3.5-Omni — нативно омни-модальная: текст, аудио, изображения и видео обрабатываются в единой архитектуре одновременно. Модель не «переводит» аудио в текст перед анализом — она понимает их вместе, как это делает человек, когда смотрит видео.

Модель обрабатывает видео, декодирует технические инструкции внутри него и сразу генерирует или правит код. Мультимодальный контекст встроен в цикл разработки.

Ключевые возможности: что умеет в реальном времени

🎙️ Голос и речь

📹 Видео и изображения

💻 Audio-Visual Vibe Coding

Самая неожиданная функция. Вы описываете идею в камеру или на микрофон — Qwen3.5-Omni генерирует рабочий сайт или прототип игры. Не псевдокод, не структура — работающий код, созданный на основе одновременного восприятия вашего голоса, жестов и экрана.

Сравнение с конкурентами

ВозможностьQwen3.5-OmniGPT-4oGemini 2.0 Pro
Текст + изображения
Аудио в реальном времени
Видеоввод~ (ограниченно)
Кол-во языков (речь)113~50~40
Контекст аудио10+ часов~1 час~2 часа
Клонирование голоса
АудиобенчмаркиВыше GeminiСопоставимоНиже Qwen
Open-source✓ (веса)
Версии моделейPlus / Flash / Light4o / miniPro / Flash

По аудиобенчмаркам Qwen3.5-Omni превосходит Gemini 2.0 Pro — это официально подтверждённый результат Alibaba. Open-source версия доступна на Hugging Face, что редкость для модели такого уровня.

Версии модели: какую выбрать

ВерсияДля чегоСкорость / Цена
Qwen3.5-Omni PlusМаксимальное качество, сложные задачиМедленнее / Дороже
Qwen3.5-Omni FlashБаланс скорости и качества, продакшнБыстро / Умеренно
Qwen3.5-Omni LightЛёгкие задачи, edge-деплой, мобильныеОчень быстро / Дёшево

Практические сценарии для бизнеса

Маркетинг и контент

Разработка и продукт

Клиентский сервис

Итог: зачем следить за Qwen

Qwen3.5-Omni — серьёзный аргумент в пользу того, что Китайские AI-лаборатории больше не «догоняют» западные, а по ряду метрик уходят вперёд. Open-source веса, 113 языков, 10 часов аудиоконтекста и клонирование голоса — это то, чего у GPT-4o и Gemini пока нет в одной модели.

Для бизнеса это означает конкуренцию на рынке мультимодальных API — и, как следствие, снижение цен. Следите за нашим блогом и за новыми возможностями AI-агентов — рынок меняется каждую неделю.

Хотите внедрить мультимодальный AI в свой бизнес?

Подберём модель под задачу — голосовой бот, анализ видео, мультиязычный сервис. Бесплатная консультация.

→ Написать в Telegram