Integrations
Enables containerized deployment of the transcription service, making it portable and providing a consistent runtime environment.
Provides audio file processing capabilities, allowing the transcription service to handle various audio formats like .wav, .mp3, .ogg, and .m4a.
Integrates with OpenAI's Whisper models to provide high-quality, multi-language audio transcription with options for different model sizes.
MCP Аудио Транскрибатор
Портативный инструмент Python Docker, реализующий протокол контекста модели (MCP) для аудиотранскрипции с использованием моделей Whisper от OpenAI, а также поставляемый с веб-интерфейсом на базе Streamlit, что позволяет загружать аудиофайл и скачивать транскрипцию в формате JSON.
🚀 Особенности
- Модульный интерфейс MCP (
mcp.py
), который определяет стандартныйModelContextProtocol
. - Реализация на основе Whisper (
WhisperMCP
) для высококачественной многоязычной транскрипции. - Интерфейс командной строки (
app.py
) для пакетной или специальной транскрипции:Copy - Поддержка Docker для единообразной среды выполнения:Copy
- Веб-приложение Streamlit (
streamlit_app.py
), позволяющее конечным пользователям:- Загрузите любой распространенный аудиофайл (.wav, .mp3, .ogg, .m4a)
- Выберите размер модели Whisper
- Предварительный просмотр транскрипции в реальном времени
- Загрузите результат JSON одним щелчком мыши
📦 Предварительные условия
- Питон 3.10+
- ffmpeg установлен и находится в вашем PATH
- (Необязательно) Docker Engine / Docker Desktop
- (Необязательно) Streamlit
🔧 Установка
- Клонировать репозиторийCopy
- Зависимости Python и FFmpegCopy
- (Необязательно) Докер
- Установить Docker Desktop
- Включите интеграцию WSL, если используете WSL2.
- (Необязательно) StreamlitCopy
🎯 Использование
1. Транскрипция CLI
<input_audio>
: путь к вашему аудиофайлу<output_json>
: путь, по которому будет сохранен результат JSON--model
: выбрать размер модели Whisper (по умолчанию: базовый)
Пример:
2. Докер
Создайте изображение:
Запустите его (смонтировав папку data/):
Затем проверьте:
3. Streamlit Web UI
Запустите приложение:
- Откройте http://localhost:8501 в вашем браузере.
- Загрузить аудиофайл
- Выберите размер модели Whisper
- Нажмите «Транскрибировать»
- Предварительный просмотр и загрузка полученного JSON
📁 Структура проекта
This server cannot be installed
Портативный, Docker-ориентированный инструмент Python, реализующий протокол контекста модели для аудиотранскрипции с использованием моделей Whisper, включающий интерфейсы CLI и веб-интерфейса для преобразования аудиофайлов в транскрипции JSON.
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityA Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.Last updated -JavaScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -11764JavaScriptThe Unlicense