Provides Docker Compose setup for easily running the required VOICEVOX engine locally.
The MCP server is implemented in TypeScript for type safety and developer experience.
Uses Zod for runtime schema validation within the MCP server implementation.
voicevox-mcp
이 프로젝트는 VOICEVOX 엔진과 연계하여 음성 합성 및 스피커 정보를 취득할 수 있는 MCP(Model Context Protocol) 서버입니다.
기능
- VOICEVOX 엔진의 스피커 정보 획득(/speakers)
- 지정된 스피커로 텍스트를 음성 합성하고 로컬로 재생(/speak)
- Mac만 지원
설정
VOICEVOX 엔진 시작(Docker 권장)
이제 localhost : 50021에서 VOICEVOX 엔진이 시작됩니다.
종속 패키지 설치 및 빌드
사용법
커서 설정 예
VOICEVOX_API_URL은 필요에 따라 설정
- MCP 클라이언트에서 speakers 도구로 스피커 목록을 검색할 수 있습니다.
- speak 툴로 텍스트를 음성 합성해, 로컬로 재생할 수 있습니다 (afplay 커멘드를 사용하고 있기 (위해)때문에, Mac 환경 추천).
주요 종속 패키지
@modelcontextprotocol/sdk
zod
typescript
주의사항
- 앞으로 개선
- VOICEVOX 엔진이 localhost : 50021에서 작동하지 않으면 음성 합성을 사용할 수 없습니다.
- Mac 이외의 환경에서는 afplay 부분을 적절하게 변경하십시오.
라이센스
MIT License
You must be authenticated.
local-only server
The server can only run on the client's local machine because it depends on local resources.
A Model Context Protocol server that integrates with VOICEVOX engine to provide text-to-speech synthesis and speaker information retrieval, allowing users to generate and play voice audio from text.
Related Resources
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityFlicense-qualityA Model Context Protocol server that provides text-to-speech capabilities using the Kokoro TTS model, offering multiple voice options and customizable speech parameters.Last updated -239JavaScript
- -securityAlicense-qualityA Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.Last updated -TypeScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -11764JavaScriptThe Unlicense