AI-инструменты
3 апреля 2026
·
5 мин чтения
Edge TTS 2026: бесплатная озвучка видео на русском — голоса Дмитрий и Светлана
ElevenLabs берёт $22 в месяц за нейросетевые голоса. Google Cloud TTS — $4 за миллион символов. А Microsoft Edge TTS отдаёт те же технологии бесплатно: без API-ключей, без регистрации, без лимитов. Голоса Дмитрий и Светлана звучат естественно и подходят для YouTube, подкастов, корпоративных видео. Разбираем, как это работает и как настроить за 2 минуты.
Что такое Edge TTS и откуда он взялся
Edge TTS — это Python-библиотека с открытым исходным кодом, которая использует тот же движок синтеза речи, что встроен в браузер Microsoft Edge. Когда Edge читает вам статью вслух через функцию «Read Aloud», он обращается к серверам Microsoft Azure Cognitive Services. Именно эти серверы разработчик rany2 открыл для прямого использования через Python — без необходимости платить за Azure API.
Библиотека появилась в 2021 году и с тех пор набрала более 10 000 звёзд на GitHub. Официально это «неофициальная обёртка» над закрытым API браузера Edge, но Microsoft не блокирует её использование — несколько лет подряд инструмент работает стабильно.
Технически Edge TTS работает через WebSocket-соединение с серверами Microsoft. Вы отправляете текст и параметры голоса — в ответ получаете MP3 или WebM-файл с синтезированной речью. Всё это происходит на стороне серверов Microsoft, поэтому качество голосов идентично платному Azure TTS.
💡 Edge TTS использует нейронные голоса Microsoft Neural Voice — ту же технологию, что стоит в Azure от $4 за 1 млн символов. Только здесь это бесплатно.
Доступные русские голоса (Дмитрий, Светлана, другие)
Для русского языка доступно несколько голосов с разным характером звучания. Основные — нейронные голоса мужского и женского тембра:
| Голос |
Пол |
Стиль |
Лучше всего для |
| ru-RU-DmitryNeural |
Мужской |
Нейтральный, уверенный |
YouTube, подкасты, презентации |
| ru-RU-SvetlanaNeural |
Женский |
Мягкий, дружелюбный |
Обучающий контент, аудиокниги |
| ru-RU-DariyaNeural |
Женский |
Живой, эмоциональный |
Реклама, короткие ролики |
Дмитрий — фаворит для русскоязычного контента. Голос звучит как профессиональный диктор: чёткое произношение, нейтральный акцент, хорошо воспринимается на фоне музыки. Светлана подходит для более мягкого контента — обучалок, лонгридов, корпоративных инструкций. Дарья (DariyaNeural) добавлена позже и отличается более живой интонацией — подходит для рекламных роликов.
Установка edge-tts за 2 минуты
pip install edge-tts
Для установки нужен Python 3.6 или выше. Библиотека edge-tts опубликована на PyPI и устанавливается одной командой:
pip install edge-tts
Если у вас несколько версий Python, используйте pip3. После установки в системе появятся две команды: edge-tts (сохранение в файл) и edge-playback (прямое воспроизведение без сохранения — требует установку mpv).
💡 Для работы edge-tts нужно интернет-соединение — синтез происходит на серверах Microsoft. Офлайн-режима нет.
Первая команда: edge-tts --text "Привет" --voice ru-RU-DmitryNeural --write-media hello.mp3
После установки сразу можно тестировать. Вот минимальная команда для генерации речи голосом Дмитрий:
edge-tts --text "Привет, это тест озвучки на русском языке" --voice ru-RU-DmitryNeural --write-media hello.mp3
Через несколько секунд в текущей папке появится файл hello.mp3. Ничего лишнего — чистая озвучка без водяных знаков, готовая к использованию в любом проекте.
Основные команды и параметры
Список всех русских голосов
Чтобы увидеть все доступные голоса для русского языка:
edge-tts --list-voices | grep ru-RU
Полный список всех голосов (более 300 на разных языках):
edge-tts --list-voices
Вывод покажет идентификаторы голосов вида ru-RU-DmitryNeural, которые нужно передавать в параметр --voice.
Скорость и тон (rate, pitch)
Edge TTS позволяет управлять темпом речи и высотой голоса через параметры --rate и --pitch:
# Ускорить речь на 20%
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --rate=+20% --write-media fast.mp3
# Замедлить на 10%
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --rate=-10% --write-media slow.mp3
# Повысить тон голоса
edge-tts --text "Текст" --voice ru-RU-SvetlanaNeural --pitch=+5Hz --write-media high.mp3
# Понизить тон
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --pitch=-5Hz --write-media low.mp3
Значения rate задаются в процентах (от -50% до +100%), pitch — в герцах (от -200Hz до +200Hz). Для YouTube-роликов оптимально: rate от +5% до +15% — речь звучит бодрее без потери разборчивости.
Сохранение в MP3 и WebM
По умолчанию edge-tts генерирует аудио в формате WebM/Opus. Параметр --write-media определяет формат по расширению файла:
# Сохранить как MP3
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.mp3
# Сохранить как WebM (меньший размер файла)
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.webm
# Также сохранить субтитры в формате VTT
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.mp3 --write-subtitles output.vtt
Функция --write-subtitles генерирует VTT-файл с таймкодами для каждого слова — удобно для автоматического добавления субтитров в видео.
Python API для автоматизации
Когда нужно озвучить не один файл, а десятки или сотни — CLI становится неудобным. Edge TTS предоставляет полноценный Python API для автоматизации через асинхронные функции:
import asyncio
import edge_tts
async def ozuchit_tekst(text: str, filename: str, voice: str = "ru-RU-DmitryNeural"):
communicate = edge_tts.Communicate(text, voice)
await communicate.save(filename)
# Базовое использование
asyncio.run(ozuchit_tekst("Привет, мир!", "output.mp3"))
# С параметрами скорости и тона
async def ozuchit_s_parametrami():
communicate = edge_tts.Communicate(
text="Это озвучка с настройками",
voice="ru-RU-DmitryNeural",
rate="+10%",
pitch="+0Hz"
)
await communicate.save("output_custom.mp3")
asyncio.run(ozuchit_s_parametrami())
Для пакетной обработки — например, озвучки нескольких глав книги или набора скриптов — можно запускать задачи параллельно через asyncio.gather(). Это в разы быстрее последовательного выполнения.
Пример: пакетная озвучка папки с текстами
import asyncio
import edge_tts
from pathlib import Path
async def batch_tts(texts_dir: str, output_dir: str):
texts_path = Path(texts_dir)
output_path = Path(output_dir)
output_path.mkdir(exist_ok=True)
tasks = []
for txt_file in texts_path.glob("*.txt"):
text = txt_file.read_text(encoding="utf-8")
out_file = output_path / (txt_file.stem + ".mp3")
communicate = edge_tts.Communicate(text, "ru-RU-DmitryNeural")
tasks.append(communicate.save(str(out_file)))
await asyncio.gather(*tasks)
print(f"Готово! Файлов: {len(tasks)}")
asyncio.run(batch_tts("./scripts", "./audio"))
Это прямой путь к AI-автоматизации рутинных процессов: один скрипт заменяет часы ручной работы в студии звукозаписи.
Реальные кейсы использования
Озвучка YouTube роликов
Самый популярный сценарий — массовое производство видеоконтента без диктора. Схема работы простая:
- Пишем скрипт ролика в текстовый файл
- Запускаем edge-tts → получаем MP3
- Монтируем в видео-редакторе вместе со слайдами или скринкастом
- Загружаем на YouTube
Голос Дмитрий отлично подходит для обучающих роликов, обзоров инструментов, туториалов. Если нужна поддержка субтитров, добавляйте --write-subtitles — и вы получите автоматически синхронизированный VTT-файл.
Аудиокниги и подкасты
Edge TTS справляется с длинными текстами — ограничений по количеству символов практически нет (только разумный таймаут соединения). Пользователи vc.ru сообщали об успешной озвучке текстов в десятки тысяч знаков — целые главы книг за один запрос.
Для аудиокниг рекомендуется Светлана: более мягкий тембр лучше воспринимается при длительном прослушивании. Дмитрий — для деловых подкастов и обзоров.
Корпоративные презентации
В бизнесе Edge TTS закрывает несколько задач: озвучка обучающих материалов для сотрудников, корпоративные инструкции, демо-ролики продуктов, голосовые уведомления в CRM-системах.
Это часть более широкой стратегии автоматизации бизнеса через AI: когда рутинные задачи закрываются инструментами, команда фокусируется на стратегии.
Edge TTS vs платные альтернативы (таблица)
| Параметр |
Edge TTS |
ElevenLabs |
Google TTS |
Azure TTS |
| Цена |
Бесплатно |
от $22/мес |
от $4/1М символов |
от $4/1М символов |
| API-ключ |
Не нужен |
Нужен |
Нужен |
Нужен |
| Русские голоса |
3 голоса |
Ограниченно |
5+ голосов |
10+ голосов |
| Качество |
Отличное (Neural) |
Превосходное |
Отличное |
Отличное |
| Клонирование голоса |
Нет |
Да |
Нет |
Частично |
| Offline-режим |
Нет |
Нет |
Нет |
Нет |
| Python API |
Да |
Да |
Да |
Да |
| Лимиты |
Нет официальных |
По тарифу |
По тарифу |
По тарифу |
Вывод очевиден: для большинства задач — YouTube-каналов, подкастов, корпоративных материалов — Edge TTS достаточно. ElevenLabs выигрывает только если нужно клонирование голоса или максимальный эмоциональный диапазон.
Ограничения: когда Edge TTS не подходит
Честно о минусах — чтобы не разочаровываться:
- Нет офлайн-режима. Синтез всегда идёт через серверы Microsoft. Без интернета инструмент не работает.
- Неофициальное API. Microsoft может изменить или заблокировать протокол в любой момент. Пока этого не происходило, но риск есть.
- Ограниченный выбор русских голосов. Всего 3 голоса против 10+ у платных сервисов. Нет возможности создать уникальный голос бренда.
- Нет эмоционального управления. Голос звучит нейтрально. Если нужен голос с выражением радости, грусти, срочности — Edge TTS не справится.
- Возможные задержки. При высокой нагрузке серверы Microsoft могут отвечать медленнее. Для продакшн-систем с гарантиями SLA лучше использовать платный Azure.
- SSML ограничен. Поддержка SSML (язык разметки речи) частичная — не все теги работают корректно.
⚠️ Edge TTS отлично подходит для некоммерческих и малых коммерческих проектов. Для продакшн-систем с требованиями к надёжности — рассмотрите официальный Azure TTS с SLA.
FAQ
Это законно — использовать Edge TTS бесплатно?
Формально edge-tts использует публичное API браузера Microsoft Edge. Microsoft не блокирует и не запрещает это явно, но и официально не поддерживает. Для коммерческого использования в крупных масштабах рекомендуется перейти на официальный Azure Cognitive Services TTS с соответствующей лицензией.
Какое качество у голосов по сравнению с ElevenLabs?
Edge TTS использует те же нейронные модели Microsoft Neural Voice, что продаются в Azure. По сравнению с ElevenLabs — хорошее качество, но меньше эмоциональности и выразительности. Для информационного контента разница практически незаметна. ElevenLabs выигрывает в диалогах и эмоциональных роликах.
Можно ли использовать edge-tts в Docker / на сервере?
Да, edge-tts работает в любой среде с Python и интернетом. Dockerfile сводится к: установка Python, pip install edge-tts, и ваш скрипт. Никаких дополнительных зависимостей или системных библиотек не требуется.
Есть ли лимиты на количество запросов?
Официальных лимитов нет — это неофициальное API. На практике пользователи озвучивают тексты объёмом в десятки тысяч символов без проблем. При очень агрессивных нагрузках (сотни запросов в секунду) теоретически возможны ограничения со стороны Microsoft, но для обычного использования это не актуально.
Итог
Edge TTS — это один из тех инструментов, о которых говорят «слишком хорошо, чтобы быть правдой». Нейронные голоса качества Azure, полноценный Python API, работа без регистрации и ключей — и всё это абсолютно бесплатно.
Если вам нужна бесплатная озвучка AI на русском для YouTube-канала, аудиокниги, обучающих материалов или автоматизации корпоративных процессов — edge-tts закрывает эту задачу с первой установки.
Начните с одной команды:
pip install edge-tts && edge-tts --text "Привет от Цифровых Отморозков" --voice ru-RU-DmitryNeural --write-media test.mp3
А если хотите встроить озвучку в более широкую систему автоматизации — читайте нашу статью про автоматизации бизнеса через AI.
Автоматизируй контент-производство с AI
Рассказываем, какие инструменты реально работают. Без воды — только практика и кейсы.
Подписаться на Telegram