Skip to main content
Glama

MCP Audio Transcriber

Transcriptor de audio MCP

Una herramienta de Python Dockerizada que implementa el Protocolo de Contexto de Modelo (MCP) mediante la API de AssemblyAI. Sube o apunta a un archivo de audio y recibe una transcripción JSON estructurada.

Características

  • AssemblyMCP : una implementación concreta de MCP que utiliza la API REST de AssemblyAI
  • Interfaz de línea de comandos ( app.py ):
    python app.py <input_audio> <output_json>
  • Interfaz web de Streamlit ( streamlit_app.py ):
    • Subir archivos locales o pegar URL
    • Haga clic en Transcribir
    • Vista previa de la transcripción y descarga JSON
  • Compatibilidad de Docker con la coherencia y portabilidad del entorno

Prerrequisitos

  • Python 3.10+
  • Una clave API de AssemblyAI
  • ffmpeg (para decodificación local, si se utilizan archivos locales)
  • (Opcional) Docker Desktop/Motor
  • (Opcional) Streamlit ( pip install streamlit )

🔧 Instalación

  1. Clonar el repositorio
    git clone https://github.com/ShreyasTembhare/MCP---Audio-Transcriber.git cd MCP---Audio-Transcriber
  2. Crear un .env
    ASSEMBLYAI_API_KEY=your_assemblyai_api_key_here
  3. Asegúrese de que .gitignore contenga:
    .env
  4. Instalar dependencias de Python
    pip install --upgrade pip pip install -r requirements.txt
  5. Instalar ffmpeg
    • Ubuntu/Debian: sudo apt update && sudo apt install ffmpeg -y
    • Windows: descargue desde https://ffmpeg.org y agregue su bin/ a su RUTA

Uso

1. Transcripción CLI

python app.py <input_audio> <output_json>
  • <input_audio> : cualquier archivo o URL compatible con AssemblyAI
  • <output_json> : ruta para el JSON generado

Ejemplo:

python app.py data/input.ogg data/output.json cat data/output.json

2. Interfaz web optimizada

streamlit run streamlit_app.py
  • Abra http://localhost:8501
  • Subir o ingresar una URL de audio
  • Haga clic en Transcribir
  • Descargar el resultado JSON

3. Docker

Construye la imagen:

docker build -t mcp-transcriber .

Ejecútalo (montando tus datos/carpeta):

docker run --rm \ -e ASSEMBLYAI_API_KEY="$ASSEMBLYAI_API_KEY" \ -v "$(pwd)/data:/data" \ mcp-transcriber:latest \ /data/input.ogg /data/output.json

Luego inspeccionar:

ls data/output.json cat data/output.json

Windows PowerShell:

docker run --rm ` -e ASSEMBLYAI_API_KEY=$env:ASSEMBLYAI_API_KEY ` -v "${PWD}\data:/data" ` mcp-transcriber:latest ` /data/input.ogg /data/output.json

Estructura del proyecto

MCP-Audio-Transcriber/ ├── app.py # CLI entrypoint (AssemblyMCP only) ├── mcp.py # ModelContextProtocol + AssemblyMCP ├── streamlit_app.py # Streamlit interface ├── requirements.txt # assemblyai, python-dotenv, streamlit, etc. ├── Dockerfile # builds the container ├── .gitignore # ignores .env, __pycache__, etc. ├── LICENSE # MIT license └── data/ # sample input and output ├── input.ogg └── output.json
-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Una herramienta Python portátil y Dockerizada que implementa el Protocolo de Contexto de Modelo para la transcripción de audio utilizando modelos Whisper, con interfaces CLI y UI web para convertir archivos de audio en transcripciones JSON.

  1. Características
    1. Prerrequisitos
      1. 🔧 Instalación
        1. Uso
          1. Transcripción CLI
          2. Interfaz web optimizada
          3. Docker
        2. Estructura del proyecto

          Related MCP Servers

          • -
            security
            F
            license
            -
            quality
            Provides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.
            Last updated -
            2
            Python
          • -
            security
            A
            license
            -
            quality
            A Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.
            Last updated -
            10
            7
            TypeScript
            MIT License
          • A
            security
            A
            license
            A
            quality
            A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
            Last updated -
            1
            2
            JavaScript
            MIT License
            • Linux
            • Apple
          • A
            security
            A
            license
            A
            quality
            A Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.
            Last updated -
            1
            15
            4
            JavaScript
            The Unlicense
            • Apple
            • Linux

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/ShreyasTembhare/MCP---Audio-Transcriber'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server