Microsoft инвестировала $13 млрд в OpenAI и долгое время строила продукты поверх GPT. Но зависимость от одного поставщика — риск. В 2025 году компания начала активно разрабатывать собственные модели под брендом MAI (Microsoft AI).
Это не замена GPT-4o в Copilot — это специализированные модели для конкретных задач. Там, где OpenAI делает universal-модели, Microsoft строит точечные инструменты: транскрипция лучше, голос дешевле, изображения быстрее. Доступны через Microsoft Foundry и MAI Playground.
MAI-Transcribe-1 — это прямой конкурент OpenAI Whisper и Google Speech-to-Text. По заявлению Microsoft, модель работает в 2.5 раза быстрее собственного Azure Speech при более высокой точности. Поддерживает 25 языков, включая русский.
Где применять в бизнесе:
MAI-Voice-1 — это синтез речи нового поколения. Microsoft позиционирует её не как TTS (text-to-speech) для озвучки, а как движок для голосовых AI-агентов: задержка минимальная, интонация естественная, агент звучит как живой.
Что важно технически:
Кейсы:
Обрабатывает входящие звонки, квалифицирует лидов, передаёт менеджеру только горячих. Звучит как человек, работает 24/7 без перерывов.
Текстовые материалы → озвученные уроки за минуты. Студент слушает, а не читает. ElevenLabs стоит $22/мес — MAI-Voice-1 через Azure может оказаться дешевле при высоком объёме.
Замена роботизированных голосовых меню на живого AI-агента. Клиент говорит свободно — агент понимает и отвечает.
MAI-Image-2 — генератор изображений, который Microsoft заявляет как топ-3 в рейтинге Arena.ai — самом авторитетном независимом бенчмарке качества генерации. Это ставит его в один ряд с Midjourney v7 и Flux 1.1 Pro.
Отличительная черта: лучшая работа с текстом внутри изображений. Это традиционно слабое место всех генераторов — и MAI-Image-2 закрывает этот gap. Конкурирует с только что вышедшим Wan 2.7-Image от Alibaba, который тоже заявляет точный текст.
Для чего подходит:
Плюс — интеграция с экосистемой Microsoft: MAI-Image-2 уже встраивается в Copilot, Bing Image Creator и Office 365. Если ты работаешь в экосистеме Microsoft, это бесшовно.
Microsoft входит в сегменты, которые до сих пор занимали стартапы: транскрипция (Whisper/AssemblyAI), голос (ElevenLabs/Murf), изображения (Midjourney/Stable Diffusion). С ресурсами Microsoft и интеграцией в Office 365 это серьёзная заявка.
Для предпринимателя это хорошая новость: конкуренция снижает цены и повышает качество. Если раньше транскрипция обходилась в $0.006/минуту через Whisper API — MAI-Transcribe-1 при скорости 2.5× и лучшей точности может сдвинуть рынок ещё ниже.
Читайте также: Edge TTS — бесплатная озвучка на русском и как AI заменяет фрилансеров с реальными цифрами.
Разберём какие модели подходят под ваши задачи и настроим рабочий пайплайн.
→ Написать в Telegram