AI-новости 1 апреля 2026 · 5 мин чтения

Qwen3.5-Omni: Alibaba выпустила ИИ, который видит, слышит и кодит в реальном времени

Пока все смотрят на Anthropic и OpenAI, Alibaba выпустила Qwen3.5-Omni — модель, которая одновременно обрабатывает текст, изображения, аудио и видео. Обходит Gemini по аудиобенчмаркам, понимает 113 языков и умеет превратить вашу идею в рабочий код прямо во время разговора с камерой. Разбираем, что это такое и зачем вам это знать.

Числа, которые важны

113

языков для распознавания речи

языков для генерации речи

10+ ч

аудио в одном контексте

256K

токенов контекстного окна

Для сравнения: предыдущая версия Qwen-Omni поддерживала 19 языков для распознавания речи и 10 для генерации. Прирост — в 6 и 3.5 раза соответственно за один релиз.

Что такое «омни-модальность» и чем Qwen3.5-Omni отличается от GPT-4o

Большинство «мультимодальных» моделей — это несколько специализированных модулей, склеенных вместе. Текстовая модель, отдельная модель для картинок, отдельная для аудио. Они работают последовательно и плохо «понимают» связи между модальностями.

Qwen3.5-Omni — нативно омни-модальная: текст, аудио, изображения и видео обрабатываются в единой архитектуре одновременно. Модель не «переводит» аудио в текст перед анализом — она понимает их вместе, как это делает человек, когда смотрит видео.

Модель обрабатывает видео, декодирует технические инструкции внутри него и сразу генерирует или правит код. Мультимодальный контекст встроен в цикл разработки.

Ключевые возможности: что умеет в реальном времени

🎙️ Голос и речь

Распознавание речи на 113 языках и диалектах (включая русский)
Генерация речи на 36 языках
Клонирование голоса — модель может имитировать голос из образца
Многоходовые голосовые диалоги в реальном времени
Обработка до 10+ часов аудио в одном контексте

📹 Видео и изображения

Видео до 400 секунд в разрешении 720p при 1 FPS
Понимание происходящего в кадре с учётом аудиодорожки
Генерация субтитров и описаний
Анализ визуальных инструкций в видео

💻 Audio-Visual Vibe Coding

Самая неожиданная функция. Вы описываете идею в камеру или на микрофон — Qwen3.5-Omni генерирует рабочий сайт или прототип игры. Не псевдокод, не структура — работающий код, созданный на основе одновременного восприятия вашего голоса, жестов и экрана.

Сравнение с конкурентами

Возможность	Qwen3.5-Omni	GPT-4o	Gemini 2.0 Pro
Текст + изображения	✓	✓	✓
Аудио в реальном времени	✓	✓	✓
Видеоввод	✓	~ (ограниченно)	✓
Кол-во языков (речь)	113	~50	~40
Контекст аудио	10+ часов	~1 час	~2 часа
Клонирование голоса	✓	✗	✗
Аудиобенчмарки	Выше Gemini	Сопоставимо	Ниже Qwen
Open-source	✓ (веса)	✗	✗
Версии моделей	Plus / Flash / Light	4o / mini	Pro / Flash

По аудиобенчмаркам Qwen3.5-Omni превосходит Gemini 2.0 Pro — это официально подтверждённый результат Alibaba. Open-source версия доступна на Hugging Face, что редкость для модели такого уровня.

Версии модели: какую выбрать

Версия	Для чего	Скорость / Цена
Qwen3.5-Omni Plus	Максимальное качество, сложные задачи	Медленнее / Дороже
Qwen3.5-Omni Flash	Баланс скорости и качества, продакшн	Быстро / Умеренно
Qwen3.5-Omni Light	Лёгкие задачи, edge-деплой, мобильные	Очень быстро / Дёшево

Практические сценарии для бизнеса

Маркетинг и контент

Транскрипция и перевод подкастов на 36 языков с сохранением интонации
Анализ видеоотзывов клиентов — модель понимает мимику, тон голоса и слова одновременно
Автоматические субтитры для роликов на нескольких языках без отдельного сервиса

Разработка и продукт

Audio-Visual Vibe Coding — прототипирование интерфейсов голосом с показом на камеру
Дебаг по видео — записываете экран с багом, объясняете голосом, модель анализирует оба потока
Документирование — диктуете требования, получаете структурированный текст

Клиентский сервис

Мультиязычный голосовой бот — 113 языков без дополнительных ASR-сервисов
Клонирование голоса — боты, говорящие голосом вашего бренд-амбассадора
Анализ звонков — 10 часов аудио в одном контексте, идеально для колл-центров

Итог: зачем следить за Qwen

Qwen3.5-Omni — серьёзный аргумент в пользу того, что Китайские AI-лаборатории больше не «догоняют» западные, а по ряду метрик уходят вперёд. Open-source веса, 113 языков, 10 часов аудиоконтекста и клонирование голоса — это то, чего у GPT-4o и Gemini пока нет в одной модели.

Для бизнеса это означает конкуренцию на рынке мультимодальных API — и, как следствие, снижение цен. Следите за нашим блогом и за новыми возможностями AI-агентов — рынок меняется каждую неделю.

Хотите внедрить мультимодальный AI в свой бизнес?

Подберём модель под задачу — голосовой бот, анализ видео, мультиязычный сервис. Бесплатная консультация.

→ Написать в Telegram