Telegram бот для озвучки текстов

Тип: Автоматизация озвучки
Назад к портфолио
Telegram бот для озвучки текстов

Telegram бот для автоматизации процесса озвучки текстов на нескольких языках. Проект создан для упрощения работы с многоязычным контентом и автоматического создания аудиофайлов для различных целей.

Бот принимает текстовые файлы с разметкой по языкам, озвучивает каждый фрагмент с помощью современных TTS сервисов и отправляет готовый архив с организованной структурой файлов.

Принцип работы

Пользователь загружает MD файл с заголовками формата # UA0, # ES1 и т.д., где первые буквы обозначают язык (UA - украинский, ES - испанский и т.д.), а цифра - номер фрагмента.

Интерфейс бота

Бот парсит файл, определяет языки и части текста, после чего пользователь выбирает сервис озвучки:

  • ElevenLabs - озвучка сразу для английского, немецкого и французского языков
  • Google AI Studio (Gemini TTS) - выбор голоса из 11 вариантов с опциональным вводом стиля для любых языков

После озвучки бот создает ZIP архив со структурой по языкам и отправляет пользователю. Все файлы также сохраняются локально.

Основной функционал

  • Загрузка и парсинг MD файлов с многоязычным контентом
  • Автоматическое распознавание языков и фрагментов текста
  • Интеграция с ElevenLabs API для высококачественной озвучки
  • Интеграция с Google AI Studio (Gemini TTS) для multilingual озвучки
  • Выбор из 11 голосов Google AI с различными характеристиками
  • Опциональный ввод стиля озвучки для тонкой настройки
  • Автоматическое создание ZIP архива с организованной структурой
  • Сохранение файлов локально с организацией по языкам
  • Обработка rate limiting с автоматическими повторными попытками

Технические особенности

  • Реализована система обработки API rate limiting с exponential backoff
  • Автоматическая конвертация PCM audio в WAV формат для Google AI
  • Организация выходных файлов по структуре: язык → номер фрагмента
  • Поддержка различных форматов аудио (WAV для Google AI, MP3 для ElevenLabs)
  • Асинхронная обработка запросов для оптимальной производительности

Технологии

Python Telegram Bot API FastAPI ElevenLabs API Google AI Studio Gemini TTS Asyncio

Результат

Создан функциональный Telegram бот, который автоматизирует процесс озвучки многоязычного контента. Бот успешно работает с двумя TTS сервисами, обеспечивая гибкость в выборе качества и стиля озвучки.

Реализованная система обработки rate limiting позволяет стабильно работать с API Google AI Studio, несмотря на строгие ограничения бесплатного тарифа. Пользователи получают готовые архивы с организованной структурой файлов, что значительно упрощает дальнейшую работу с озвученным контентом.

Привет! Я веб-программист
Дмитрий Ченгаев
Хотите реализовать похожий проект?
Напишите мне в Telegram
Или подпишитесь на канал, чтобы следить за новыми кейсами