Служба распознавания голоса MCP
Эта служба обеспечивает возможности распознавания голоса и извлечения текста как в режимах stdio, так и в режимах MCP.
Функции
- Распознавание голоса из файла
- Распознавание голоса из данных, закодированных в base64
- Извлечение текста
- Поддержка режимов stdio и MCP
- Структурированные результаты распознавания голоса
Структура проекта
voice_service.py
— реализация основного сервисаstdio_server.py
- точка входа в режим stdiomcp_server.py
— точка входа в режим MCPbuild.py
— скрипт сборки исполняемых файловbuild_exec.sh
— скрипт выполнения сборкиtest_*.sh
— тестовые скрипты для различных функций
Установка
- Клонируйте репозиторий:
- Установите зависимости:
- Настройте переменные среды в
.env
:
Использование
Режим stdio
- Запустите службу:
- Отправляйте запросы JSON-RPC через stdin:
- Или используйте исполняемый файл:
Режим МКП
- Запустите службу:
- Или используйте исполняемый файл:
Результаты распознавания голоса
Сервис предоставляет структурированные результаты распознавания голоса. Вот пример формата ответа:
Исходный ответ API
Реструктурированный ответ
Поля результатов метки
Поле label_result
содержит следующую структурированную информацию:
Поле | Описание | Пример значения |
---|---|---|
лан | Код языка | "ru" |
эмо | Эмоциональное состояние | "неизвестный" |
тип | Тип аудио | "речь" |
спикер | Идентификатор говорящего | "woitn" |
текст | Распознанное текстовое содержимое | "тест тест тест" |
Специальные этикетки
Служба распознает и обрабатывает следующие специальные метки в исходном ответе:
<|en|>
- Код языка<|EMO_UNKNOWN|>
- Состояние эмоций<|Speech|>
- Тип аудио<|woitn|>
- Идентификатор говорящего
Создание исполняемых файлов
- Сделайте скрипт сборки исполняемым:
- Собрать исполняемый файл в режиме stdio:
- Собрать исполняемый файл режима MCP:
Исполняемые файлы будут созданы по адресу:
- режим stdio:
dist/voice_stdio
- Режим MCP:
dist/voice_mcp
Тестирование
Запустите тестовые скрипты:
Лицензия
Данный проект лицензирован по лицензии MIT — подробности см. в файле LICENSE.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Обеспечивает возможности распознавания голоса и извлечения текста с поддержкой режимов stdio и MCP, обработки аудиофайлов или данных в кодировке base64 и возврата структурированных результатов с информацией о языке, эмоциях и говорящем.
Related MCP Servers
- AsecurityAlicenseAqualityEnables text extraction from web pages and PDFs, and execution of predefined commands, enhancing content processing and automation capabilities.Last updated -3TypeScriptMIT License
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityProvides advanced analytical, research, and natural language processing capabilities through a Model Context Protocol server, enabling dataset analysis, decision analysis, and enhanced NLP features like entity recognition and fact extraction.Last updated -2TypeScriptMIT License
- -securityFlicense-qualityIntegrates with Claude and Cursor using the Model Context Protocol to generate voice audio from text using Resemble AI's voices.Last updated -Python