AI-инструменты 3 апреля 2026 · 5 мин чтения

Edge TTS 2026: бесплатная озвучка видео на русском — голоса Дмитрий и Светлана

ElevenLabs берёт $22 в месяц за нейросетевые голоса. Google Cloud TTS — $4 за миллион символов. А Microsoft Edge TTS отдаёт те же технологии бесплатно: без API-ключей, без регистрации, без лимитов. Голоса Дмитрий и Светлана звучат естественно и подходят для YouTube, подкастов, корпоративных видео. Разбираем, как это работает и как настроить за 2 минуты.

Что такое Edge TTS и откуда он взялся

Edge TTS — это Python-библиотека с открытым исходным кодом, которая использует тот же движок синтеза речи, что встроен в браузер Microsoft Edge. Когда Edge читает вам статью вслух через функцию «Read Aloud», он обращается к серверам Microsoft Azure Cognitive Services. Именно эти серверы разработчик rany2 открыл для прямого использования через Python — без необходимости платить за Azure API.

Библиотека появилась в 2021 году и с тех пор набрала более 10 000 звёзд на GitHub. Официально это «неофициальная обёртка» над закрытым API браузера Edge, но Microsoft не блокирует её использование — несколько лет подряд инструмент работает стабильно.

Технически Edge TTS работает через WebSocket-соединение с серверами Microsoft. Вы отправляете текст и параметры голоса — в ответ получаете MP3 или WebM-файл с синтезированной речью. Всё это происходит на стороне серверов Microsoft, поэтому качество голосов идентично платному Azure TTS.

💡 Edge TTS использует нейронные голоса Microsoft Neural Voice — ту же технологию, что стоит в Azure от $4 за 1 млн символов. Только здесь это бесплатно.

Доступные русские голоса (Дмитрий, Светлана, другие)

Для русского языка доступно несколько голосов с разным характером звучания. Основные — нейронные голоса мужского и женского тембра:

Голос Пол Стиль Лучше всего для
ru-RU-DmitryNeural Мужской Нейтральный, уверенный YouTube, подкасты, презентации
ru-RU-SvetlanaNeural Женский Мягкий, дружелюбный Обучающий контент, аудиокниги
ru-RU-DariyaNeural Женский Живой, эмоциональный Реклама, короткие ролики

Дмитрий — фаворит для русскоязычного контента. Голос звучит как профессиональный диктор: чёткое произношение, нейтральный акцент, хорошо воспринимается на фоне музыки. Светлана подходит для более мягкого контента — обучалок, лонгридов, корпоративных инструкций. Дарья (DariyaNeural) добавлена позже и отличается более живой интонацией — подходит для рекламных роликов.

Установка edge-tts за 2 минуты

pip install edge-tts

Для установки нужен Python 3.6 или выше. Библиотека edge-tts опубликована на PyPI и устанавливается одной командой:

pip install edge-tts

Если у вас несколько версий Python, используйте pip3. После установки в системе появятся две команды: edge-tts (сохранение в файл) и edge-playback (прямое воспроизведение без сохранения — требует установку mpv).

💡 Для работы edge-tts нужно интернет-соединение — синтез происходит на серверах Microsoft. Офлайн-режима нет.

Первая команда: edge-tts --text "Привет" --voice ru-RU-DmitryNeural --write-media hello.mp3

После установки сразу можно тестировать. Вот минимальная команда для генерации речи голосом Дмитрий:

edge-tts --text "Привет, это тест озвучки на русском языке" --voice ru-RU-DmitryNeural --write-media hello.mp3

Через несколько секунд в текущей папке появится файл hello.mp3. Ничего лишнего — чистая озвучка без водяных знаков, готовая к использованию в любом проекте.

Основные команды и параметры

Список всех русских голосов

Чтобы увидеть все доступные голоса для русского языка:

edge-tts --list-voices | grep ru-RU

Полный список всех голосов (более 300 на разных языках):

edge-tts --list-voices

Вывод покажет идентификаторы голосов вида ru-RU-DmitryNeural, которые нужно передавать в параметр --voice.

Скорость и тон (rate, pitch)

Edge TTS позволяет управлять темпом речи и высотой голоса через параметры --rate и --pitch:

# Ускорить речь на 20% edge-tts --text "Текст" --voice ru-RU-DmitryNeural --rate=+20% --write-media fast.mp3 # Замедлить на 10% edge-tts --text "Текст" --voice ru-RU-DmitryNeural --rate=-10% --write-media slow.mp3 # Повысить тон голоса edge-tts --text "Текст" --voice ru-RU-SvetlanaNeural --pitch=+5Hz --write-media high.mp3 # Понизить тон edge-tts --text "Текст" --voice ru-RU-DmitryNeural --pitch=-5Hz --write-media low.mp3

Значения rate задаются в процентах (от -50% до +100%), pitch — в герцах (от -200Hz до +200Hz). Для YouTube-роликов оптимально: rate от +5% до +15% — речь звучит бодрее без потери разборчивости.

Сохранение в MP3 и WebM

По умолчанию edge-tts генерирует аудио в формате WebM/Opus. Параметр --write-media определяет формат по расширению файла:

# Сохранить как MP3 edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.mp3 # Сохранить как WebM (меньший размер файла) edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.webm # Также сохранить субтитры в формате VTT edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.mp3 --write-subtitles output.vtt

Функция --write-subtitles генерирует VTT-файл с таймкодами для каждого слова — удобно для автоматического добавления субтитров в видео.

Python API для автоматизации

Когда нужно озвучить не один файл, а десятки или сотни — CLI становится неудобным. Edge TTS предоставляет полноценный Python API для автоматизации через асинхронные функции:

import asyncio import edge_tts async def ozuchit_tekst(text: str, filename: str, voice: str = "ru-RU-DmitryNeural"): communicate = edge_tts.Communicate(text, voice) await communicate.save(filename) # Базовое использование asyncio.run(ozuchit_tekst("Привет, мир!", "output.mp3")) # С параметрами скорости и тона async def ozuchit_s_parametrami(): communicate = edge_tts.Communicate( text="Это озвучка с настройками", voice="ru-RU-DmitryNeural", rate="+10%", pitch="+0Hz" ) await communicate.save("output_custom.mp3") asyncio.run(ozuchit_s_parametrami())

Для пакетной обработки — например, озвучки нескольких глав книги или набора скриптов — можно запускать задачи параллельно через asyncio.gather(). Это в разы быстрее последовательного выполнения.

Пример: пакетная озвучка папки с текстами

import asyncio import edge_tts from pathlib import Path async def batch_tts(texts_dir: str, output_dir: str): texts_path = Path(texts_dir) output_path = Path(output_dir) output_path.mkdir(exist_ok=True) tasks = [] for txt_file in texts_path.glob("*.txt"): text = txt_file.read_text(encoding="utf-8") out_file = output_path / (txt_file.stem + ".mp3") communicate = edge_tts.Communicate(text, "ru-RU-DmitryNeural") tasks.append(communicate.save(str(out_file))) await asyncio.gather(*tasks) print(f"Готово! Файлов: {len(tasks)}") asyncio.run(batch_tts("./scripts", "./audio"))

Это прямой путь к AI-автоматизации рутинных процессов: один скрипт заменяет часы ручной работы в студии звукозаписи.

Реальные кейсы использования

Озвучка YouTube роликов

Самый популярный сценарий — массовое производство видеоконтента без диктора. Схема работы простая:

  1. Пишем скрипт ролика в текстовый файл
  2. Запускаем edge-tts → получаем MP3
  3. Монтируем в видео-редакторе вместе со слайдами или скринкастом
  4. Загружаем на YouTube

Голос Дмитрий отлично подходит для обучающих роликов, обзоров инструментов, туториалов. Если нужна поддержка субтитров, добавляйте --write-subtitles — и вы получите автоматически синхронизированный VTT-файл.

Аудиокниги и подкасты

Edge TTS справляется с длинными текстами — ограничений по количеству символов практически нет (только разумный таймаут соединения). Пользователи vc.ru сообщали об успешной озвучке текстов в десятки тысяч знаков — целые главы книг за один запрос.

Для аудиокниг рекомендуется Светлана: более мягкий тембр лучше воспринимается при длительном прослушивании. Дмитрий — для деловых подкастов и обзоров.

Корпоративные презентации

В бизнесе Edge TTS закрывает несколько задач: озвучка обучающих материалов для сотрудников, корпоративные инструкции, демо-ролики продуктов, голосовые уведомления в CRM-системах.

Это часть более широкой стратегии автоматизации бизнеса через AI: когда рутинные задачи закрываются инструментами, команда фокусируется на стратегии.

Edge TTS vs платные альтернативы (таблица)

Параметр Edge TTS ElevenLabs Google TTS Azure TTS
Цена Бесплатно от $22/мес от $4/1М символов от $4/1М символов
API-ключ Не нужен Нужен Нужен Нужен
Русские голоса 3 голоса Ограниченно 5+ голосов 10+ голосов
Качество Отличное (Neural) Превосходное Отличное Отличное
Клонирование голоса Нет Да Нет Частично
Offline-режим Нет Нет Нет Нет
Python API Да Да Да Да
Лимиты Нет официальных По тарифу По тарифу По тарифу

Вывод очевиден: для большинства задач — YouTube-каналов, подкастов, корпоративных материалов — Edge TTS достаточно. ElevenLabs выигрывает только если нужно клонирование голоса или максимальный эмоциональный диапазон.

Ограничения: когда Edge TTS не подходит

Честно о минусах — чтобы не разочаровываться:

⚠️ Edge TTS отлично подходит для некоммерческих и малых коммерческих проектов. Для продакшн-систем с требованиями к надёжности — рассмотрите официальный Azure TTS с SLA.

FAQ

Это законно — использовать Edge TTS бесплатно?
Формально edge-tts использует публичное API браузера Microsoft Edge. Microsoft не блокирует и не запрещает это явно, но и официально не поддерживает. Для коммерческого использования в крупных масштабах рекомендуется перейти на официальный Azure Cognitive Services TTS с соответствующей лицензией.
Какое качество у голосов по сравнению с ElevenLabs?
Edge TTS использует те же нейронные модели Microsoft Neural Voice, что продаются в Azure. По сравнению с ElevenLabs — хорошее качество, но меньше эмоциональности и выразительности. Для информационного контента разница практически незаметна. ElevenLabs выигрывает в диалогах и эмоциональных роликах.
Можно ли использовать edge-tts в Docker / на сервере?
Да, edge-tts работает в любой среде с Python и интернетом. Dockerfile сводится к: установка Python, pip install edge-tts, и ваш скрипт. Никаких дополнительных зависимостей или системных библиотек не требуется.
Есть ли лимиты на количество запросов?
Официальных лимитов нет — это неофициальное API. На практике пользователи озвучивают тексты объёмом в десятки тысяч символов без проблем. При очень агрессивных нагрузках (сотни запросов в секунду) теоретически возможны ограничения со стороны Microsoft, но для обычного использования это не актуально.

Итог

Edge TTS — это один из тех инструментов, о которых говорят «слишком хорошо, чтобы быть правдой». Нейронные голоса качества Azure, полноценный Python API, работа без регистрации и ключей — и всё это абсолютно бесплатно.

Если вам нужна бесплатная озвучка AI на русском для YouTube-канала, аудиокниги, обучающих материалов или автоматизации корпоративных процессов — edge-tts закрывает эту задачу с первой установки.

Начните с одной команды:

pip install edge-tts && edge-tts --text "Привет от Цифровых Отморозков" --voice ru-RU-DmitryNeural --write-media test.mp3

А если хотите встроить озвучку в более широкую систему автоматизации — читайте нашу статью про автоматизации бизнеса через AI.

Автоматизируй контент-производство с AI

Рассказываем, какие инструменты реально работают. Без воды — только практика и кейсы.

Подписаться на Telegram