Служба распознавания голоса MCP
Эта служба обеспечивает возможности распознавания голоса и извлечения текста как в режимах stdio, так и в режимах MCP.
Функции
- Распознавание голоса из файла
- Распознавание голоса из данных, закодированных в base64
- Извлечение текста
- Поддержка режимов stdio и MCP
- Структурированные результаты распознавания голоса
Структура проекта
voice_service.py
— реализация основного сервисаstdio_server.py
- точка входа в режим stdiomcp_server.py
— точка входа в режим MCPbuild.py
— скрипт сборки исполняемых файловbuild_exec.sh
— скрипт выполнения сборкиtest_*.sh
— тестовые скрипты для различных функций
Установка
- Клонируйте репозиторий:
- Установите зависимости:
- Настройте переменные среды в
.env
:
Использование
Режим stdio
- Запустите службу:
- Отправляйте запросы JSON-RPC через stdin:
- Или используйте исполняемый файл:
Режим МКП
- Запустите службу:
- Или используйте исполняемый файл:
Результаты распознавания голоса
Сервис предоставляет структурированные результаты распознавания голоса. Вот пример формата ответа:
Исходный ответ API
Реструктурированный ответ
Поля результатов метки
Поле label_result
содержит следующую структурированную информацию:
Поле | Описание | Пример значения |
---|---|---|
лан | Код языка | "ru" |
эмо | Эмоциональное состояние | "неизвестный" |
тип | Тип аудио | "речь" |
спикер | Идентификатор говорящего | "woitn" |
текст | Распознанное текстовое содержимое | "тест тест тест" |
Специальные этикетки
Служба распознает и обрабатывает следующие специальные метки в исходном ответе:
<|en|>
- Код языка<|EMO_UNKNOWN|>
- Состояние эмоций<|Speech|>
- Тип аудио<|woitn|>
- Идентификатор говорящего
Создание исполняемых файлов
- Сделайте скрипт сборки исполняемым:
- Собрать исполняемый файл в режиме stdio:
- Собрать исполняемый файл режима MCP:
Исполняемые файлы будут созданы по адресу:
- режим stdio:
dist/voice_stdio
- Режим MCP:
dist/voice_mcp
Тестирование
Запустите тестовые скрипты:
Лицензия
Данный проект лицензирован по лицензии MIT — подробности см. в файле LICENSE.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Обеспечивает возможности распознавания голоса и извлечения текста с поддержкой режимов stdio и MCP, обработки аудиофайлов или данных в кодировке base64 и возврата структурированных результатов с информацией о языке, эмоциях и говорящем.
Related MCP Servers
- -securityAlicense-qualityA Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.Last updated -36PythonMIT License
- AsecurityAlicenseAqualityMCP to analyse local audio file.Last updated -810PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.Last updated -TypeScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License