MCP Аудио Транскрибатор
Инструмент Python Dockerized, реализующий протокол контекста модели (MCP) через API AssemblyAI. Загрузите или укажите на аудиофайл и получите структурированную транскрипцию JSON.
Функции
- AssemblyMCP : конкретная реализация MCP, использующая REST API AssemblyAI
- Интерфейс командной строки (
app.py
): - Веб-интерфейс Streamlit (
streamlit_app.py
):- Загрузите локальные файлы или вставьте URL-адреса
- Нажмите «Транскрибировать»
- Предварительный просмотр транскрипта и загрузка JSON
- Поддержка Docker для обеспечения согласованности и переносимости среды
Предпосылки
- Питон 3.10+
- API-ключ AssemblyAI
- ffmpeg (для локального декодирования, если используются локальные файлы)
- (Необязательно) Рабочий стол Docker / Движок
- (Необязательно) Streamlit (
pip install streamlit
)
🔧 Установка
- Клонировать репозиторий
- Создать
.env
- Убедитесь, что
.gitignore
содержит: - Установить зависимости Python
- Установить ffmpeg
- Ubuntu/Debian:
sudo apt update && sudo apt install ffmpeg -y
- Windows: скачайте с https://ffmpeg.org и добавьте его
bin/
в ваш PATH
- Ubuntu/Debian:
Использование
1. Транскрипция CLI
<input_audio>
: любой файл или URL, поддерживаемый AssemblyAI<output_json>
: путь для сгенерированного JSON
Пример:
2. Streamlit Web UI
- Откройте http://localhost:8501
- Загрузите или введите URL-адрес аудио
- Нажмите «Транскрибировать»
- Загрузите результат JSON
3. Докер
Создайте изображение:
Запустите его (смонтировав папку data/):
Затем проверьте:
Windows PowerShell:
Структура проекта
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Портативный, Docker-ориентированный инструмент Python, реализующий протокол контекста модели для аудиотранскрипции с использованием моделей Whisper, включающий интерфейсы CLI и веб-интерфейса для преобразования аудиофайлов в транскрипции JSON.
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityA Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.Last updated -107TypeScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -1154JavaScriptThe Unlicense