Для сравнения: предыдущая версия Qwen-Omni поддерживала 19 языков для распознавания речи и 10 для генерации. Прирост — в 6 и 3.5 раза соответственно за один релиз.
Большинство «мультимодальных» моделей — это несколько специализированных модулей, склеенных вместе. Текстовая модель, отдельная модель для картинок, отдельная для аудио. Они работают последовательно и плохо «понимают» связи между модальностями.
Qwen3.5-Omni — нативно омни-модальная: текст, аудио, изображения и видео обрабатываются в единой архитектуре одновременно. Модель не «переводит» аудио в текст перед анализом — она понимает их вместе, как это делает человек, когда смотрит видео.
Модель обрабатывает видео, декодирует технические инструкции внутри него и сразу генерирует или правит код. Мультимодальный контекст встроен в цикл разработки.
Самая неожиданная функция. Вы описываете идею в камеру или на микрофон — Qwen3.5-Omni генерирует рабочий сайт или прототип игры. Не псевдокод, не структура — работающий код, созданный на основе одновременного восприятия вашего голоса, жестов и экрана.
| Возможность | Qwen3.5-Omni | GPT-4o | Gemini 2.0 Pro |
|---|---|---|---|
| Текст + изображения | ✓ | ✓ | ✓ |
| Аудио в реальном времени | ✓ | ✓ | ✓ |
| Видеоввод | ✓ | ~ (ограниченно) | ✓ |
| Кол-во языков (речь) | 113 | ~50 | ~40 |
| Контекст аудио | 10+ часов | ~1 час | ~2 часа |
| Клонирование голоса | ✓ | ✗ | ✗ |
| Аудиобенчмарки | Выше Gemini | Сопоставимо | Ниже Qwen |
| Open-source | ✓ (веса) | ✗ | ✗ |
| Версии моделей | Plus / Flash / Light | 4o / mini | Pro / Flash |
По аудиобенчмаркам Qwen3.5-Omni превосходит Gemini 2.0 Pro — это официально подтверждённый результат Alibaba. Open-source версия доступна на Hugging Face, что редкость для модели такого уровня.
| Версия | Для чего | Скорость / Цена |
|---|---|---|
| Qwen3.5-Omni Plus | Максимальное качество, сложные задачи | Медленнее / Дороже |
| Qwen3.5-Omni Flash | Баланс скорости и качества, продакшн | Быстро / Умеренно |
| Qwen3.5-Omni Light | Лёгкие задачи, edge-деплой, мобильные | Очень быстро / Дёшево |
Qwen3.5-Omni — серьёзный аргумент в пользу того, что Китайские AI-лаборатории больше не «догоняют» западные, а по ряду метрик уходят вперёд. Open-source веса, 113 языков, 10 часов аудиоконтекста и клонирование голоса — это то, чего у GPT-4o и Gemini пока нет в одной модели.
Для бизнеса это означает конкуренцию на рынке мультимодальных API — и, как следствие, снижение цен. Следите за нашим блогом и за новыми возможностями AI-агентов — рынок меняется каждую неделю.
Подберём модель под задачу — голосовой бот, анализ видео, мультиязычный сервис. Бесплатная консультация.
→ Написать в Telegram