음성 인식 MCP 서비스
이 서비스는 stdio와 MCP 모드를 통해 음성 인식 및 텍스트 추출 기능을 제공합니다.
특징
파일에서 음성 인식
Base64로 인코딩된 데이터로부터 음성 인식
텍스트 추출
stdio 및 MCP 모드 모두 지원
구조화된 음성 인식 결과
Related MCP server: Analytical MCP Server
프로젝트 구조
voice_service.py- 핵심 서비스 구현stdio_server.py- stdio 모드 진입점mcp_server.py- MCP 모드 진입점build.py- 실행 파일을 위한 빌드 스크립트build_exec.sh- 빌드 실행 스크립트test_*.sh- 다양한 기능에 대한 테스트 스크립트
설치
저장소를 복제합니다.
지엑스피1
종속성 설치:
.env에 환경 변수를 설정합니다.
용법
stdio 모드
서비스를 실행합니다:
stdin을 통해 JSON-RPC 요청을 보냅니다.
또는 실행 파일을 사용하세요.
MCP 모드
서비스를 실행합니다:
또는 실행 파일을 사용하세요.
음성 인식 결과
이 서비스는 구조화된 음성 인식 결과를 제공합니다. 응답 형식의 예는 다음과 같습니다.
원래 API 응답
재구성된 대응
레이블 결과 필드
label_result 필드에는 다음과 같은 구조화된 정보가 포함되어 있습니다.
필드 | 설명 | 예시 값 |
란 | 언어 코드 | "en" |
에모 | 감정 상태 | "알려지지 않은" |
유형 | 오디오 유형 | "연설" |
스피커 | 스피커 식별자 | "woitn" |
텍스트 | 인식된 텍스트 콘텐츠 | "테스트 테스트 테스트" |
특수 라벨
이 서비스는 원래 응답에서 다음과 같은 특수 레이블을 인식하고 처리합니다.
<|en|>- 언어 코드<|EMO_UNKNOWN|>- 감정 상태<|Speech|>- 오디오 유형<|woitn|>- 스피커 식별자
실행 파일 구축
빌드 스크립트를 실행 가능하게 만듭니다.
stdio 모드 실행 파일을 빌드합니다.
MCP 모드 실행 파일 빌드:
실행 파일은 다음 위치에 생성됩니다.
stdio 모드:
dist/voice_stdioMCP 모드:
dist/voice_mcp
테스트
테스트 스크립트를 실행합니다.
특허
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여되었습니다. 자세한 내용은 라이선스 파일을 참조하세요.