Служба распознавания голоса MCP
Эта служба обеспечивает возможности распознавания голоса и извлечения текста как в режимах stdio, так и в режимах MCP.
Функции
Распознавание голоса из файла
Распознавание голоса из данных, закодированных в base64
Извлечение текста
Поддержка режимов stdio и MCP
Структурированные результаты распознавания голоса
Related MCP server: Analytical MCP Server
Структура проекта
voice_service.py— реализация основного сервисаstdio_server.py- точка входа в режим stdiomcp_server.py— точка входа в режим MCPbuild.py— скрипт сборки исполняемых файловbuild_exec.sh— скрипт выполнения сборкиtest_*.sh— тестовые скрипты для различных функций
Установка
Клонируйте репозиторий:
Установите зависимости:
Настройте переменные среды в
.env:
Использование
Режим stdio
Запустите службу:
Отправляйте запросы JSON-RPC через stdin:
Или используйте исполняемый файл:
Режим МКП
Запустите службу:
Или используйте исполняемый файл:
Результаты распознавания голоса
Сервис предоставляет структурированные результаты распознавания голоса. Вот пример формата ответа:
Исходный ответ API
Реструктурированный ответ
Поля результатов метки
Поле label_result содержит следующую структурированную информацию:
Поле | Описание | Пример значения |
лан | Код языка | "ru" |
эмо | Эмоциональное состояние | "неизвестный" |
тип | Тип аудио | "речь" |
спикер | Идентификатор говорящего | "woitn" |
текст | Распознанное текстовое содержимое | "тест тест тест" |
Специальные этикетки
Служба распознает и обрабатывает следующие специальные метки в исходном ответе:
<|en|>- Код языка<|EMO_UNKNOWN|>- Состояние эмоций<|Speech|>- Тип аудио<|woitn|>- Идентификатор говорящего
Создание исполняемых файлов
Сделайте скрипт сборки исполняемым:
Собрать исполняемый файл в режиме stdio:
Собрать исполняемый файл режима MCP:
Исполняемые файлы будут созданы по адресу:
режим stdio:
dist/voice_stdioРежим MCP:
dist/voice_mcp
Тестирование
Запустите тестовые скрипты:
Лицензия
Данный проект лицензирован по лицензии MIT — подробности см. в файле LICENSE.