AI-инструменты 3 апреля 2026 · 5 мин чтения

Edge TTS 2026: бесплатная озвучка видео на русском — голоса Дмитрий и Светлана

ElevenLabs берёт $22 в месяц за нейросетевые голоса. Google Cloud TTS — $4 за миллион символов. А Microsoft Edge TTS отдаёт те же технологии бесплатно: без API-ключей, без регистрации, без лимитов. Голоса Дмитрий и Светлана звучат естественно и подходят для YouTube, подкастов, корпоративных видео. Разбираем, как это работает и как настроить за 2 минуты.

Что такое Edge TTS и откуда он взялся

Edge TTS — это Python-библиотека с открытым исходным кодом, которая использует тот же движок синтеза речи, что встроен в браузер Microsoft Edge. Когда Edge читает вам статью вслух через функцию «Read Aloud», он обращается к серверам Microsoft Azure Cognitive Services. Именно эти серверы разработчик rany2 открыл для прямого использования через Python — без необходимости платить за Azure API.

Библиотека появилась в 2021 году и с тех пор набрала более 10 000 звёзд на GitHub. Официально это «неофициальная обёртка» над закрытым API браузера Edge, но Microsoft не блокирует её использование — несколько лет подряд инструмент работает стабильно.

Технически Edge TTS работает через WebSocket-соединение с серверами Microsoft. Вы отправляете текст и параметры голоса — в ответ получаете MP3 или WebM-файл с синтезированной речью. Всё это происходит на стороне серверов Microsoft, поэтому качество голосов идентично платному Azure TTS.

💡 Edge TTS использует нейронные голоса Microsoft Neural Voice — ту же технологию, что стоит в Azure от $4 за 1 млн символов. Только здесь это бесплатно.

Доступные русские голоса (Дмитрий, Светлана, другие)

Для русского языка доступно несколько голосов с разным характером звучания. Основные — нейронные голоса мужского и женского тембра:

Голос	Пол	Стиль	Лучше всего для
ru-RU-DmitryNeural	Мужской	Нейтральный, уверенный	YouTube, подкасты, презентации
ru-RU-SvetlanaNeural	Женский	Мягкий, дружелюбный	Обучающий контент, аудиокниги
ru-RU-DariyaNeural	Женский	Живой, эмоциональный	Реклама, короткие ролики

Дмитрий — фаворит для русскоязычного контента. Голос звучит как профессиональный диктор: чёткое произношение, нейтральный акцент, хорошо воспринимается на фоне музыки. Светлана подходит для более мягкого контента — обучалок, лонгридов, корпоративных инструкций. Дарья (DariyaNeural) добавлена позже и отличается более живой интонацией — подходит для рекламных роликов.

Установка edge-tts за 2 минуты

pip install edge-tts

Для установки нужен Python 3.6 или выше. Библиотека edge-tts опубликована на PyPI и устанавливается одной командой:

pip install edge-tts

Если у вас несколько версий Python, используйте pip3. После установки в системе появятся две команды: edge-tts (сохранение в файл) и edge-playback (прямое воспроизведение без сохранения — требует установку mpv).

💡 Для работы edge-tts нужно интернет-соединение — синтез происходит на серверах Microsoft. Офлайн-режима нет.

Первая команда: edge-tts --text "Привет" --voice ru-RU-DmitryNeural --write-media hello.mp3

После установки сразу можно тестировать. Вот минимальная команда для генерации речи голосом Дмитрий:

edge-tts --text "Привет, это тест озвучки на русском языке" --voice ru-RU-DmitryNeural --write-media hello.mp3

Через несколько секунд в текущей папке появится файл hello.mp3. Ничего лишнего — чистая озвучка без водяных знаков, готовая к использованию в любом проекте.

Основные команды и параметры

Список всех русских голосов

Чтобы увидеть все доступные голоса для русского языка:

edge-tts --list-voices | grep ru-RU

Полный список всех голосов (более 300 на разных языках):

edge-tts --list-voices

Вывод покажет идентификаторы голосов вида ru-RU-DmitryNeural, которые нужно передавать в параметр --voice.

Скорость и тон (rate, pitch)

Edge TTS позволяет управлять темпом речи и высотой голоса через параметры --rate и --pitch:

# Ускорить речь на 20%
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --rate=+20% --write-media fast.mp3

# Замедлить на 10%
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --rate=-10% --write-media slow.mp3

# Повысить тон голоса
edge-tts --text "Текст" --voice ru-RU-SvetlanaNeural --pitch=+5Hz --write-media high.mp3

# Понизить тон
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --pitch=-5Hz --write-media low.mp3

Значения rate задаются в процентах (от -50% до +100%), pitch — в герцах (от -200Hz до +200Hz). Для YouTube-роликов оптимально: rate от +5% до +15% — речь звучит бодрее без потери разборчивости.

Сохранение в MP3 и WebM

По умолчанию edge-tts генерирует аудио в формате WebM/Opus. Параметр --write-media определяет формат по расширению файла:

# Сохранить как MP3
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.mp3

# Сохранить как WebM (меньший размер файла)
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.webm

# Также сохранить субтитры в формате VTT
edge-tts --text "Текст" --voice ru-RU-DmitryNeural --write-media output.mp3 --write-subtitles output.vtt

Функция --write-subtitles генерирует VTT-файл с таймкодами для каждого слова — удобно для автоматического добавления субтитров в видео.

Python API для автоматизации

Когда нужно озвучить не один файл, а десятки или сотни — CLI становится неудобным. Edge TTS предоставляет полноценный Python API для автоматизации через асинхронные функции:

import asyncio
import edge_tts

async def ozuchit_tekst(text: str, filename: str, voice: str = "ru-RU-DmitryNeural"):
    communicate = edge_tts.Communicate(text, voice)
    await communicate.save(filename)

# Базовое использование
asyncio.run(ozuchit_tekst("Привет, мир!", "output.mp3"))

# С параметрами скорости и тона
async def ozuchit_s_parametrami():
    communicate = edge_tts.Communicate(
        text="Это озвучка с настройками",
        voice="ru-RU-DmitryNeural",
        rate="+10%",
        pitch="+0Hz"
    )
    await communicate.save("output_custom.mp3")

asyncio.run(ozuchit_s_parametrami())

Для пакетной обработки — например, озвучки нескольких глав книги или набора скриптов — можно запускать задачи параллельно через asyncio.gather(). Это в разы быстрее последовательного выполнения.

Пример: пакетная озвучка папки с текстами

import asyncio
import edge_tts
from pathlib import Path

async def batch_tts(texts_dir: str, output_dir: str):
    texts_path = Path(texts_dir)
    output_path = Path(output_dir)
    output_path.mkdir(exist_ok=True)

    tasks = []
    for txt_file in texts_path.glob("*.txt"):
        text = txt_file.read_text(encoding="utf-8")
        out_file = output_path / (txt_file.stem + ".mp3")
        communicate = edge_tts.Communicate(text, "ru-RU-DmitryNeural")
        tasks.append(communicate.save(str(out_file)))

    await asyncio.gather(*tasks)
    print(f"Готово! Файлов: {len(tasks)}")

asyncio.run(batch_tts("./scripts", "./audio"))

Это прямой путь к AI-автоматизации рутинных процессов: один скрипт заменяет часы ручной работы в студии звукозаписи.

Реальные кейсы использования

Озвучка YouTube роликов

Самый популярный сценарий — массовое производство видеоконтента без диктора. Схема работы простая:

Пишем скрипт ролика в текстовый файл
Запускаем edge-tts → получаем MP3
Монтируем в видео-редакторе вместе со слайдами или скринкастом
Загружаем на YouTube

Голос Дмитрий отлично подходит для обучающих роликов, обзоров инструментов, туториалов. Если нужна поддержка субтитров, добавляйте --write-subtitles — и вы получите автоматически синхронизированный VTT-файл.

Аудиокниги и подкасты

Edge TTS справляется с длинными текстами — ограничений по количеству символов практически нет (только разумный таймаут соединения). Пользователи vc.ru сообщали об успешной озвучке текстов в десятки тысяч знаков — целые главы книг за один запрос.

Для аудиокниг рекомендуется Светлана: более мягкий тембр лучше воспринимается при длительном прослушивании. Дмитрий — для деловых подкастов и обзоров.

Корпоративные презентации

В бизнесе Edge TTS закрывает несколько задач: озвучка обучающих материалов для сотрудников, корпоративные инструкции, демо-ролики продуктов, голосовые уведомления в CRM-системах.

Это часть более широкой стратегии автоматизации бизнеса через AI: когда рутинные задачи закрываются инструментами, команда фокусируется на стратегии.

Edge TTS vs платные альтернативы (таблица)

Параметр	Edge TTS	ElevenLabs	Google TTS	Azure TTS
Цена	Бесплатно	от $22/мес	от $4/1М символов	от $4/1М символов
API-ключ	Не нужен	Нужен	Нужен	Нужен
Русские голоса	3 голоса	Ограниченно	5+ голосов	10+ голосов
Качество	Отличное (Neural)	Превосходное	Отличное	Отличное
Клонирование голоса	Нет	Да	Нет	Частично
Offline-режим	Нет	Нет	Нет	Нет
Python API	Да	Да	Да	Да
Лимиты	Нет официальных	По тарифу	По тарифу	По тарифу

Вывод очевиден: для большинства задач — YouTube-каналов, подкастов, корпоративных материалов — Edge TTS достаточно. ElevenLabs выигрывает только если нужно клонирование голоса или максимальный эмоциональный диапазон.

Ограничения: когда Edge TTS не подходит

Честно о минусах — чтобы не разочаровываться:

Нет офлайн-режима. Синтез всегда идёт через серверы Microsoft. Без интернета инструмент не работает.
Неофициальное API. Microsoft может изменить или заблокировать протокол в любой момент. Пока этого не происходило, но риск есть.
Ограниченный выбор русских голосов. Всего 3 голоса против 10+ у платных сервисов. Нет возможности создать уникальный голос бренда.
Нет эмоционального управления. Голос звучит нейтрально. Если нужен голос с выражением радости, грусти, срочности — Edge TTS не справится.
Возможные задержки. При высокой нагрузке серверы Microsoft могут отвечать медленнее. Для продакшн-систем с гарантиями SLA лучше использовать платный Azure.
SSML ограничен. Поддержка SSML (язык разметки речи) частичная — не все теги работают корректно.

⚠️ Edge TTS отлично подходит для некоммерческих и малых коммерческих проектов. Для продакшн-систем с требованиями к надёжности — рассмотрите официальный Azure TTS с SLA.

FAQ

Это законно — использовать Edge TTS бесплатно?

Формально edge-tts использует публичное API браузера Microsoft Edge. Microsoft не блокирует и не запрещает это явно, но и официально не поддерживает. Для коммерческого использования в крупных масштабах рекомендуется перейти на официальный Azure Cognitive Services TTS с соответствующей лицензией.

Какое качество у голосов по сравнению с ElevenLabs?

Edge TTS использует те же нейронные модели Microsoft Neural Voice, что продаются в Azure. По сравнению с ElevenLabs — хорошее качество, но меньше эмоциональности и выразительности. Для информационного контента разница практически незаметна. ElevenLabs выигрывает в диалогах и эмоциональных роликах.

Можно ли использовать edge-tts в Docker / на сервере?

Да, edge-tts работает в любой среде с Python и интернетом. Dockerfile сводится к: установка Python, pip install edge-tts, и ваш скрипт. Никаких дополнительных зависимостей или системных библиотек не требуется.

Есть ли лимиты на количество запросов?

Официальных лимитов нет — это неофициальное API. На практике пользователи озвучивают тексты объёмом в десятки тысяч символов без проблем. При очень агрессивных нагрузках (сотни запросов в секунду) теоретически возможны ограничения со стороны Microsoft, но для обычного использования это не актуально.

Итог

Edge TTS — это один из тех инструментов, о которых говорят «слишком хорошо, чтобы быть правдой». Нейронные голоса качества Azure, полноценный Python API, работа без регистрации и ключей — и всё это абсолютно бесплатно.

Если вам нужна бесплатная озвучка AI на русском для YouTube-канала, аудиокниги, обучающих материалов или автоматизации корпоративных процессов — edge-tts закрывает эту задачу с первой установки.

Начните с одной команды:

pip install edge-tts && edge-tts --text "Привет от Цифровых Отморозков" --voice ru-RU-DmitryNeural --write-media test.mp3

А если хотите встроить озвучку в более широкую систему автоматизации — читайте нашу статью про автоматизации бизнеса через AI.

Автоматизируй контент-производство с AI

Рассказываем, какие инструменты реально работают. Без воды — только практика и кейсы.

Подписаться на Telegram