Служба распознавания голоса MCP
Эта служба обеспечивает возможности распознавания голоса и извлечения текста как в режимах stdio, так и в режимах MCP.
Функции
Распознавание голоса из файла
Распознавание голоса из данных, закодированных в base64
Извлечение текста
Поддержка режимов stdio и MCP
Структурированные результаты распознавания голоса
Структура проекта
voice_service.py— реализация основного сервисаstdio_server.py- точка входа в режим stdiomcp_server.py— точка входа в режим MCPbuild.py— скрипт сборки исполняемых файловbuild_exec.sh— скрипт выполнения сборкиtest_*.sh— тестовые скрипты для различных функций
Установка
Клонируйте репозиторий:
Установите зависимости:
Настройте переменные среды в
.env:
Использование
Режим stdio
Запустите службу:
Отправляйте запросы JSON-RPC через stdin:
Или используйте исполняемый файл:
Режим МКП
Запустите службу:
Или используйте исполняемый файл:
Результаты распознавания голоса
Сервис предоставляет структурированные результаты распознавания голоса. Вот пример формата ответа:
Исходный ответ API
Реструктурированный ответ
Поля результатов метки
Поле label_result содержит следующую структурированную информацию:
Поле | Описание | Пример значения |
лан | Код языка | "ru" |
эмо | Эмоциональное состояние | "неизвестный" |
тип | Тип аудио | "речь" |
спикер | Идентификатор говорящего | "woitn" |
текст | Распознанное текстовое содержимое | "тест тест тест" |
Специальные этикетки
Служба распознает и обрабатывает следующие специальные метки в исходном ответе:
<|en|>- Код языка<|EMO_UNKNOWN|>- Состояние эмоций<|Speech|>- Тип аудио<|woitn|>- Идентификатор говорящего
Создание исполняемых файлов
Сделайте скрипт сборки исполняемым:
Собрать исполняемый файл в режиме stdio:
Собрать исполняемый файл режима MCP:
Исполняемые файлы будут созданы по адресу:
режим stdio:
dist/voice_stdioРежим MCP:
dist/voice_mcp
Тестирование
Запустите тестовые скрипты:
Лицензия
Данный проект лицензирован по лицензии MIT — подробности см. в файле LICENSE.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Обеспечивает возможности распознавания голоса и извлечения текста с поддержкой режимов stdio и MCP, обработки аудиофайлов или данных в кодировке base64 и возврата структурированных результатов с информацией о языке, эмоциях и говорящем.
Related MCP Servers
- -security-license-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -10
- -security-license-qualityProvides advanced analytical, research, and natural language processing capabilities through a Model Context Protocol server, enabling dataset analysis, decision analysis, and enhanced NLP features like entity recognition and fact extraction.Last updated -4MIT License
- -security-license-qualityIntegrates with Claude and Cursor using the Model Context Protocol to generate voice audio from text using Resemble AI's voices.Last updated -
- Asecurity-licenseAqualityA Model Context Protocol server that integrates with VOICEVOX engine to provide text-to-speech synthesis and speaker information retrieval, allowing users to generate and play voice audio from text.Last updated -2MIT License