Transcriptor de audio MCP
Una herramienta de Python Dockerizada que implementa el Protocolo de Contexto de Modelo (MCP) mediante la API de AssemblyAI. Sube o apunta a un archivo de audio y recibe una transcripción JSON estructurada.
Características
- AssemblyMCP : una implementación concreta de MCP que utiliza la API REST de AssemblyAI
- Interfaz de línea de comandos (
app.py
): - Interfaz web de Streamlit (
streamlit_app.py
):- Subir archivos locales o pegar URL
- Haga clic en Transcribir
- Vista previa de la transcripción y descarga JSON
- Compatibilidad de Docker con la coherencia y portabilidad del entorno
Prerrequisitos
- Python 3.10+
- Una clave API de AssemblyAI
- ffmpeg (para decodificación local, si se utilizan archivos locales)
- (Opcional) Docker Desktop/Motor
- (Opcional) Streamlit (
pip install streamlit
)
🔧 Instalación
- Clonar el repositorio
- Crear un
.env
- Asegúrese de que
.gitignore
contenga: - Instalar dependencias de Python
- Instalar ffmpeg
- Ubuntu/Debian:
sudo apt update && sudo apt install ffmpeg -y
- Windows: descargue desde https://ffmpeg.org y agregue su
bin/
a su RUTA
- Ubuntu/Debian:
Uso
1. Transcripción CLI
<input_audio>
: cualquier archivo o URL compatible con AssemblyAI<output_json>
: ruta para el JSON generado
Ejemplo:
2. Interfaz web optimizada
- Abra http://localhost:8501
- Subir o ingresar una URL de audio
- Haga clic en Transcribir
- Descargar el resultado JSON
3. Docker
Construye la imagen:
Ejecútalo (montando tus datos/carpeta):
Luego inspeccionar:
Windows PowerShell:
Estructura del proyecto
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Una herramienta Python portátil y Dockerizada que implementa el Protocolo de Contexto de Modelo para la transcripción de audio utilizando modelos Whisper, con interfaces CLI y UI web para convertir archivos de audio en transcripciones JSON.
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityA Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.Last updated -107TypeScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -1154JavaScriptThe Unlicense