Skip to main content
Glama

Voice Recognition MCP Service

by yangsenessa

Служба распознавания голоса MCP

Эта служба обеспечивает возможности распознавания голоса и извлечения текста как в режимах stdio, так и в режимах MCP.

Функции

  • Распознавание голоса из файла
  • Распознавание голоса из данных, закодированных в base64
  • Извлечение текста
  • Поддержка режимов stdio и MCP
  • Структурированные результаты распознавания голоса

Структура проекта

  • voice_service.py — реализация основного сервиса
  • stdio_server.py - точка входа в режим stdio
  • mcp_server.py — точка входа в режим MCP
  • build.py — скрипт сборки исполняемых файлов
  • build_exec.sh — скрипт выполнения сборки
  • test_*.sh — тестовые скрипты для различных функций

Установка

  1. Клонируйте репозиторий:
git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify
  1. Установите зависимости:
pip install -r requirements.txt
  1. Настройте переменные среды в .env :
API_URL=your_api_url API_KEY=your_api_key

Использование

Режим stdio

  1. Запустите службу:
python stdio_server.py
  1. Отправляйте запросы JSON-RPC через stdin:
{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. Или используйте исполняемый файл:
./dist/voice_stdio

Режим МКП

  1. Запустите службу:
python mcp_server.py
  1. Или используйте исполняемый файл:
./dist/voice_mcp

Результаты распознавания голоса

Сервис предоставляет структурированные результаты распознавания голоса. Вот пример формата ответа:

Исходный ответ API

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

Реструктурированный ответ

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

Поля результатов метки

Поле label_result содержит следующую структурированную информацию:

ПолеОписаниеПример значения
ланКод языка"ru"
эмоЭмоциональное состояние"неизвестный"
типТип аудио"речь"
спикерИдентификатор говорящего"woitn"
текстРаспознанное текстовое содержимое"тест тест тест"

Специальные этикетки

Служба распознает и обрабатывает следующие специальные метки в исходном ответе:

  • <|en|> - Код языка
  • <|EMO_UNKNOWN|> - Состояние эмоций
  • <|Speech|> - Тип аудио
  • <|woitn|> - Идентификатор говорящего

Создание исполняемых файлов

  1. Сделайте скрипт сборки исполняемым:
chmod +x build_exec.sh
  1. Собрать исполняемый файл в режиме stdio:
./build_exec.sh
  1. Собрать исполняемый файл режима MCP:
./build_exec.sh mcp

Исполняемые файлы будут созданы по адресу:

  • режим stdio: dist/voice_stdio
  • Режим MCP: dist/voice_mcp

Тестирование

Запустите тестовые скрипты:

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

Лицензия

Данный проект лицензирован по лицензии MIT — подробности см. в файле LICENSE.

-
security - not tested
A
license - permissive license
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Обеспечивает возможности распознавания голоса и извлечения текста с поддержкой режимов stdio и MCP, обработки аудиофайлов или данных в кодировке base64 и возврата структурированных результатов с информацией о языке, эмоциях и говорящем.

  1. Функции
    1. Структура проекта
      1. Установка
        1. Использование
          1. Режим stdio
          2. Режим МКП
        2. Результаты распознавания голоса
          1. Исходный ответ API
          2. Реструктурированный ответ
          3. Поля результатов метки
          4. Специальные этикетки
        3. Создание исполняемых файлов
          1. Тестирование
            1. Лицензия

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                A Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.
                Last updated -
                36
                Python
                MIT License
                • Linux
                • Apple
              • -
                security
                A
                license
                -
                quality
                A Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.
                Last updated -
                TypeScript
                MIT License
              • A
                security
                A
                license
                A
                quality
                A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                Last updated -
                1
                2
                JavaScript
                MIT License
                • Linux
                • Apple

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server