Integrations
Enables containerized deployment of the transcription service, making it portable and providing a consistent runtime environment.
Provides audio file processing capabilities, allowing the transcription service to handle various audio formats like .wav, .mp3, .ogg, and .m4a.
Integrates with OpenAI's Whisper models to provide high-quality, multi-language audio transcription with options for different model sizes.
Transcriptor de audio MCP
Una herramienta Python portátil y Dockerizada que implementa un Protocolo de Contexto de Modelo (MCP) para la transcripción de audio utilizando los modelos Whisper de OpenAI, e incluso viene con una interfaz de usuario web impulsada por Streamlit para que pueda cargar un archivo de audio y descargar la transcripción como JSON.
🚀 Características
- Interfaz MCP modular (
mcp.py
) que define unModelContextProtocol
estándar. - Implementación basada en susurros (
WhisperMCP
) para transcripciones multilingües de alta calidad. - Interfaz de línea de comandos (
app.py
) para transcripción por lotes o ad-hoc:Copy - Compatibilidad de Docker para un tiempo de ejecución consistente:Copy
- Aplicación web Streamlit (
streamlit_app.py
) que permite a los usuarios finales:- Sube cualquier archivo de audio común (.wav, .mp3, .ogg, .m4a)
- Elija un tamaño de modelo Whisper
- Vista previa de la transcripción en vivo
- Descargue el resultado JSON con un clic
📦 Requisitos previos
- Python 3.10+
- ffmpeg instalado y en tu PATH
- (Opcional) Docker Engine / Docker Desktop
- (Opcional) Streamlit
🔧 Instalación
- Clonar el repositorioCopy
- Dependencias de Python y FFmpegCopy
- (Opcional) Docker
- Instalar Docker Desktop
- Habilite la integración de WSL si utiliza WSL2.
- (Opcional) StreamlitCopy
🎯 Uso
1. Transcripción CLI
<input_audio>
: ruta a su archivo de audio<output_json>
: ruta donde se guardará el resultado JSON--model
: elige el tamaño del modelo Whisper (predeterminado: base)
Ejemplo:
2. Docker
Construye la imagen:
Ejecútalo (montando tus datos/carpeta):
Luego inspeccionar:
3. Interfaz web optimizada
Iniciar la aplicación:
- Abra http://localhost:8501 en su navegador
- Subir un archivo de audio
- Seleccione el tamaño del modelo Whisper
- Haga clic en Transcribir
- Obtenga una vista previa y descargue el JSON resultante
📁 Estructura del proyecto
This server cannot be installed
Una herramienta Python portátil y Dockerizada que implementa el Protocolo de Contexto de Modelo para la transcripción de audio utilizando modelos Whisper, con interfaces CLI y UI web para convertir archivos de audio en transcripciones JSON.
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityA Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.Last updated -JavaScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -11764JavaScriptThe Unlicense