Skip to main content
Glama

Voice Recognition MCP Service

by yangsenessa

음성 인식 MCP 서비스

이 서비스는 stdio와 MCP 모드를 통해 음성 인식 및 텍스트 추출 기능을 제공합니다.

특징

  • 파일에서 음성 인식
  • Base64로 인코딩된 데이터로부터 음성 인식
  • 텍스트 추출
  • stdio 및 MCP 모드 모두 지원
  • 구조화된 음성 인식 결과

프로젝트 구조

  • voice_service.py - 핵심 서비스 구현
  • stdio_server.py - stdio 모드 진입점
  • mcp_server.py - MCP 모드 진입점
  • build.py - 실행 파일을 위한 빌드 스크립트
  • build_exec.sh - 빌드 실행 스크립트
  • test_*.sh - 다양한 기능에 대한 테스트 스크립트

설치

  1. 저장소를 복제합니다.

지엑스피1

  1. 종속성 설치:
pip install -r requirements.txt
  1. .env 에 환경 변수를 설정합니다.
API_URL=your_api_url API_KEY=your_api_key

용법

stdio 모드

  1. 서비스를 실행합니다:
python stdio_server.py
  1. stdin을 통해 JSON-RPC 요청을 보냅니다.
{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. 또는 실행 파일을 사용하세요.
./dist/voice_stdio

MCP 모드

  1. 서비스를 실행합니다:
python mcp_server.py
  1. 또는 실행 파일을 사용하세요.
./dist/voice_mcp

음성 인식 결과

이 서비스는 구조화된 음성 인식 결과를 제공합니다. 응답 형식의 예는 다음과 같습니다.

원래 API 응답

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

재구성된 대응

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

레이블 결과 필드

label_result 필드에는 다음과 같은 구조화된 정보가 포함되어 있습니다.

필드설명예시 값
언어 코드"en"
에모감정 상태"알려지지 않은"
유형오디오 유형"연설"
스피커스피커 식별자"woitn"
텍스트인식된 텍스트 콘텐츠"테스트 테스트 테스트"

특수 라벨

이 서비스는 원래 응답에서 다음과 같은 특수 레이블을 인식하고 처리합니다.

  • <|en|> - 언어 코드
  • <|EMO_UNKNOWN|> - 감정 상태
  • <|Speech|> - 오디오 유형
  • <|woitn|> - 스피커 식별자

실행 파일 구축

  1. 빌드 스크립트를 실행 가능하게 만듭니다.
chmod +x build_exec.sh
  1. stdio 모드 실행 파일을 빌드합니다.
./build_exec.sh
  1. MCP 모드 실행 파일 빌드:
./build_exec.sh mcp

실행 파일은 다음 위치에 생성됩니다.

  • stdio 모드: dist/voice_stdio
  • MCP 모드: dist/voice_mcp

테스트

테스트 스크립트를 실행합니다.

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

특허

이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여되었습니다. 자세한 내용은 라이선스 파일을 참조하세요.

-
security - not tested
A
license - permissive license
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

stdio와 MCP 모드를 모두 지원하고, 오디오 파일이나 base64로 인코딩된 데이터를 처리하고 언어, 감정, 화자 정보가 포함된 구조화된 결과를 반환하며, 음성 인식 및 텍스트 추출 기능을 제공합니다.

  1. 특징
    1. 프로젝트 구조
      1. 설치
        1. 용법
          1. stdio 모드
          2. MCP 모드
        2. 음성 인식 결과
          1. 원래 API 응답
          2. 재구성된 대응
          3. 레이블 결과 필드
          4. 특수 라벨
        3. 실행 파일 구축
          1. 테스트
            1. 특허

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                A Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.
                Last updated -
                36
                Python
                MIT License
                • Linux
                • Apple
              • -
                security
                A
                license
                -
                quality
                A Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.
                Last updated -
                TypeScript
                MIT License
              • A
                security
                A
                license
                A
                quality
                A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                Last updated -
                1
                2
                JavaScript
                MIT License
                • Linux
                • Apple

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server