음성 인식 MCP 서비스
이 서비스는 stdio와 MCP 모드를 통해 음성 인식 및 텍스트 추출 기능을 제공합니다.
특징
- 파일에서 음성 인식
- Base64로 인코딩된 데이터로부터 음성 인식
- 텍스트 추출
- stdio 및 MCP 모드 모두 지원
- 구조화된 음성 인식 결과
프로젝트 구조
voice_service.py
- 핵심 서비스 구현stdio_server.py
- stdio 모드 진입점mcp_server.py
- MCP 모드 진입점build.py
- 실행 파일을 위한 빌드 스크립트build_exec.sh
- 빌드 실행 스크립트test_*.sh
- 다양한 기능에 대한 테스트 스크립트
설치
- 저장소를 복제합니다.
지엑스피1
- 종속성 설치:
.env
에 환경 변수를 설정합니다.
용법
stdio 모드
- 서비스를 실행합니다:
- stdin을 통해 JSON-RPC 요청을 보냅니다.
- 또는 실행 파일을 사용하세요.
MCP 모드
- 서비스를 실행합니다:
- 또는 실행 파일을 사용하세요.
음성 인식 결과
이 서비스는 구조화된 음성 인식 결과를 제공합니다. 응답 형식의 예는 다음과 같습니다.
원래 API 응답
재구성된 대응
레이블 결과 필드
label_result
필드에는 다음과 같은 구조화된 정보가 포함되어 있습니다.
필드 | 설명 | 예시 값 |
---|---|---|
란 | 언어 코드 | "en" |
에모 | 감정 상태 | "알려지지 않은" |
유형 | 오디오 유형 | "연설" |
스피커 | 스피커 식별자 | "woitn" |
텍스트 | 인식된 텍스트 콘텐츠 | "테스트 테스트 테스트" |
특수 라벨
이 서비스는 원래 응답에서 다음과 같은 특수 레이블을 인식하고 처리합니다.
<|en|>
- 언어 코드<|EMO_UNKNOWN|>
- 감정 상태<|Speech|>
- 오디오 유형<|woitn|>
- 스피커 식별자
실행 파일 구축
- 빌드 스크립트를 실행 가능하게 만듭니다.
- stdio 모드 실행 파일을 빌드합니다.
- MCP 모드 실행 파일 빌드:
실행 파일은 다음 위치에 생성됩니다.
- stdio 모드:
dist/voice_stdio
- MCP 모드:
dist/voice_mcp
테스트
테스트 스크립트를 실행합니다.
특허
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여되었습니다. 자세한 내용은 라이선스 파일을 참조하세요.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
stdio와 MCP 모드를 모두 지원하고, 오디오 파일이나 base64로 인코딩된 데이터를 처리하고 언어, 감정, 화자 정보가 포함된 구조화된 결과를 반환하며, 음성 인식 및 텍스트 추출 기능을 제공합니다.
Related MCP Servers
- -securityAlicense-qualityA Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.Last updated -36PythonMIT License
- AsecurityAlicenseAqualityMCP to analyse local audio file.Last updated -810PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.Last updated -TypeScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License