Integrations
Provides installation support via GitHub repository, allowing users to clone and install the voice-recorder-mcp from DefiBax's GitHub account
Uses OpenAI's Whisper model for audio transcription, enabling conversion of recorded voice to text with different model sizes for varying accuracy and performance needs
음성 녹음기 MCP 서버
OpenAI의 Whisper 모델을 사용하여 오디오를 녹음하고 텍스트로 변환하는 MCP 서버입니다. Goose 커스텀 확장 프로그램 또는 독립형 MCP 서버로 작동하도록 설계되었습니다.
특징
- 기본 마이크에서 오디오 녹음
- Whisper를 사용하여 녹음 내용을 필사하세요
- 사용자 정의 확장 기능으로 Goose AI 에이전트와 통합됩니다.
- 일반적인 녹음 시나리오에 대한 프롬프트가 포함되어 있습니다.
설치
지엑스피1
용법
독립형 MCP 서버로서
MCP Inspector로 테스트
MCP Inspector는 서버를 테스트하기 위한 대화형 인터페이스를 제공합니다.
Goose AI Agent와 함께
- Goose를 열고 설정 > 확장 프로그램 > 추가 > 명령줄 확장 프로그램으로 이동합니다.
- 이름을
voice-recorder
로 설정하세요 - 명령 필드에 voice-recorder-mcp 실행 파일의 전체 경로를 입력합니다.또는 특정 모델의 경우:Copy경로를 찾으려면 다음을 실행하세요.CopyCopy
- 기본 기능에는 환경 변수가 필요하지 않습니다.
- 구스와 대화를 시작하고 녹음기를 소개하세요. "음성 녹음기로 녹음된 내용을 바탕으로 작업을 진행해 주세요. 예를 들어, 제가 1+1과 같은 계산을 구술하면 결과를 반환해 주세요."
사용 가능한 도구
start_recording
: 기본 마이크에서 오디오 녹음을 시작합니다.stop_and_transcribe
: 녹음을 중지하고 오디오를 텍스트로 변환합니다.record_and_transcribe
: 지정된 기간 동안 오디오를 녹음하고 이를 필사합니다.
위스퍼 모델
이 확장 기능은 다양한 Whisper 모델 크기를 지원합니다.
모델 | 속도 | 정확성 | 메모리 사용량 | 사용 사례 |
---|---|---|---|---|
tiny.en | 가장 빠른 | 가장 낮은 | 최소 | 테스트, 빠른 필사 |
base.en | 빠른 | 좋은 | 낮은 | 일상 사용(기본) |
small.en | 중간 | 더 나은 | 보통의 | 좋은 균형 |
medium.en | 느린 | 높은 | 높은 | 중요한 녹음 |
large | 가장 느림 | 제일 높은 | 매우 높음 | 중요한 필사본 |
.en
접미사는 영어에 특화된 모델을 나타내며, 영어 콘텐츠에 대해 더 빠르고 정확합니다.
요구 사항
- 파이썬 3.12+
- 오디오 입력 장치(마이크)
구성
환경 변수를 사용하여 서버를 구성할 수 있습니다.
문제 해결
일반적인 문제
- 오디오가 녹음되지 않습니다 . 마이크 권한 및 설정을 확인하세요.
- 모델 다운로드 오류 : 초기 모델 다운로드를 위해 안정적인 인터넷 연결이 있는지 확인하세요.
- Goose와 통합 : 명령 경로가 올바른지 확인하세요
- 오디오 품질 문제 : 샘플 속도를 조정해보세요(기본값: 16000)
기여하다
기여를 환영합니다! 풀 리퀘스트를 제출해 주세요.
- 저장소를 포크하세요
- 기능 브랜치를 생성합니다(
git checkout -b feature/amazing-feature
) - 변경 사항을 커밋하세요(
git commit -m 'Add some amazing feature'
) - 브랜치에 푸시(
git push origin feature/amazing-feature
) - 풀 리퀘스트 열기
특허
이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여되었습니다. 자세한 내용은 라이선스 파일을 참조하세요.
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
OpenAI의 Whisper 모델을 사용하여 마이크에서 오디오를 녹음하고 텍스트로 변환할 수 있습니다. 독립형 MCP 서버와 Goose AI 에이전트 확장 기능으로 모두 작동합니다.
- Features
- Installation
- Usage
- Available Tools
- Whisper Models
- Requirements
- Configuration
- Troubleshooting
- Contributing
- License
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityMCP server for Synthesizer V AI Vocal Studio, which allows LLMs to create/edit vocal tracks e.g. adding lyrics to the melody.Last updated -6Apache 2.0
- -security-license-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -1JavaScriptMIT License
ElevenLabs MCP Serverofficial
AsecurityAlicenseAqualityAn official Model Context Protocol (MCP) server that enables AI clients to interact with ElevenLabs' Text to Speech and audio processing APIs, allowing for speech generation, voice cloning, audio transcription, and other audio-related tasks.Last updated -19543PythonMIT License