Skip to main content
Glama

MCP Audio Transcriber

MCP Аудио Транскрибатор

Инструмент Python Dockerized, реализующий протокол контекста модели (MCP) через API AssemblyAI. Загрузите или укажите на аудиофайл и получите структурированную транскрипцию JSON.

Функции

  • AssemblyMCP : конкретная реализация MCP, использующая REST API AssemblyAI
  • Интерфейс командной строки ( app.py ):
    python app.py <input_audio> <output_json>
  • Веб-интерфейс Streamlit ( streamlit_app.py ):
    • Загрузите локальные файлы или вставьте URL-адреса
    • Нажмите «Транскрибировать»
    • Предварительный просмотр транскрипта и загрузка JSON
  • Поддержка Docker для обеспечения согласованности и переносимости среды

Предпосылки

  • Питон 3.10+
  • API-ключ AssemblyAI
  • ffmpeg (для локального декодирования, если используются локальные файлы)
  • (Необязательно) Рабочий стол Docker / Движок
  • (Необязательно) Streamlit ( pip install streamlit )

🔧 Установка

  1. Клонировать репозиторий
    git clone https://github.com/ShreyasTembhare/MCP---Audio-Transcriber.git cd MCP---Audio-Transcriber
  2. Создать .env
    ASSEMBLYAI_API_KEY=your_assemblyai_api_key_here
  3. Убедитесь, что .gitignore содержит:
    .env
  4. Установить зависимости Python
    pip install --upgrade pip pip install -r requirements.txt
  5. Установить ffmpeg
    • Ubuntu/Debian: sudo apt update && sudo apt install ffmpeg -y
    • Windows: скачайте с https://ffmpeg.org и добавьте его bin/ в ваш PATH

Использование

1. Транскрипция CLI

python app.py <input_audio> <output_json>
  • <input_audio> : любой файл или URL, поддерживаемый AssemblyAI
  • <output_json> : путь для сгенерированного JSON

Пример:

python app.py data/input.ogg data/output.json cat data/output.json

2. Streamlit Web UI

streamlit run streamlit_app.py
  • Откройте http://localhost:8501
  • Загрузите или введите URL-адрес аудио
  • Нажмите «Транскрибировать»
  • Загрузите результат JSON

3. Докер

Создайте изображение:

docker build -t mcp-transcriber .

Запустите его (смонтировав папку data/):

docker run --rm \ -e ASSEMBLYAI_API_KEY="$ASSEMBLYAI_API_KEY" \ -v "$(pwd)/data:/data" \ mcp-transcriber:latest \ /data/input.ogg /data/output.json

Затем проверьте:

ls data/output.json cat data/output.json

Windows PowerShell:

docker run --rm ` -e ASSEMBLYAI_API_KEY=$env:ASSEMBLYAI_API_KEY ` -v "${PWD}\data:/data" ` mcp-transcriber:latest ` /data/input.ogg /data/output.json

Структура проекта

MCP-Audio-Transcriber/ ├── app.py # CLI entrypoint (AssemblyMCP only) ├── mcp.py # ModelContextProtocol + AssemblyMCP ├── streamlit_app.py # Streamlit interface ├── requirements.txt # assemblyai, python-dotenv, streamlit, etc. ├── Dockerfile # builds the container ├── .gitignore # ignores .env, __pycache__, etc. ├── LICENSE # MIT license └── data/ # sample input and output ├── input.ogg └── output.json
-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Портативный, Docker-ориентированный инструмент Python, реализующий протокол контекста модели для аудиотранскрипции с использованием моделей Whisper, включающий интерфейсы CLI и веб-интерфейса для преобразования аудиофайлов в транскрипции JSON.

  1. Функции
    1. Предпосылки
      1. 🔧 Установка
        1. Использование
          1. Транскрипция CLI
          2. Streamlit Web UI
          3. Докер
        2. Структура проекта

          Related MCP Servers

          • -
            security
            F
            license
            -
            quality
            Provides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.
            Last updated -
            2
            Python
          • -
            security
            A
            license
            -
            quality
            A Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.
            Last updated -
            10
            7
            TypeScript
            MIT License
          • A
            security
            A
            license
            A
            quality
            A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
            Last updated -
            1
            2
            JavaScript
            MIT License
            • Linux
            • Apple
          • A
            security
            A
            license
            A
            quality
            A Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.
            Last updated -
            1
            15
            4
            JavaScript
            The Unlicense
            • Apple
            • Linux

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/ShreyasTembhare/MCP---Audio-Transcriber'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server