Integrations
Provides installation support via GitHub repository, allowing users to clone and install the voice-recorder-mcp from DefiBax's GitHub account
Uses OpenAI's Whisper model for audio transcription, enabling conversion of recorded voice to text with different model sizes for varying accuracy and performance needs
录音机 MCP 服务器
一个 MCP 服务器,用于录制音频并使用 OpenAI 的 Whisper 模型进行转录。设计为 Goose 自定义扩展或独立的 MCP 服务器。
特征
- 使用默认麦克风录制音频
- 使用 Whisper 转录录音
- 作为自定义扩展与 Goose AI 代理集成
- 包括常见录音场景的提示
安装
用法
作为独立的 MCP 服务器
使用 MCP Inspector 进行测试
MCP 检查器提供了一个交互式界面来测试您的服务器:
借助 Goose AI Agent
- 打开 Goose 并转到“设置”>“扩展”>“添加”>“命令行扩展”
- 将名称设置为
voice-recorder
- 在命令字段中,输入 voice-recorder-mcp 可执行文件的完整路径:或者针对特定模型:Copy要查找路径,请运行:CopyCopy
- 基本功能不需要环境变量
- 与 Goose 开始对话并介绍录音机:“我希望你根据录音机返回的转录采取行动。例如,如果我口述像 1 + 1 这样的计算,请返回结果。”
可用工具
start_recording
:开始从默认麦克风录制音频stop_and_transcribe
:停止录音并将音频转录为文本record_and_transcribe
:录制指定时长的音频并将其转录
耳语模型
此扩展支持各种 Whisper 模型尺寸:
模型 | 速度 | 准确性 | 内存使用情况 | 用例 |
---|---|---|---|---|
tiny.en | 最快的 | 最低 | 最小 | 测试、快速转录 |
base.en | 快速地 | 好的 | 低的 | 日常使用(默认) |
small.en | 中等的 | 更好的 | 缓和 | 良好的平衡 |
medium.en | 慢的 | 高的 | 高的 | 重要录音 |
large | 最慢 | 最高 | 非常高 | 批判性抄本 |
.en
后缀表示专门针对英语的模型,对于英语内容来说速度更快、更准确。
要求
- Python 3.12+
- 音频输入设备(麦克风)
配置
您可以使用环境变量配置服务器:
故障排除
常见问题
- 没有录制音频:检查您的麦克风权限和设置
- 模型下载错误:确保初始模型下载时有稳定的互联网连接
- 与 Goose 集成:确保命令路径正确
- 音频质量问题:尝试调整采样率(默认值:16000)
贡献
欢迎贡献代码!欢迎提交 Pull 请求。
- 分叉存储库
- 创建你的功能分支(
git checkout -b feature/amazing-feature
) - 提交您的更改(
git commit -m 'Add some amazing feature'
) - 推送到分支(
git push origin feature/amazing-feature
) - 打开拉取请求
执照
该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅 LICENSE 文件。
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
支持从麦克风录制音频,并使用 OpenAI 的 Whisper 模型进行转录。既可以作为独立的 MCP 服务器,也可以作为 Goose AI 代理扩展使用。
- Features
- Installation
- Usage
- Available Tools
- Whisper Models
- Requirements
- Configuration
- Troubleshooting
- Contributing
- License
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityMCP server for Synthesizer V AI Vocal Studio, which allows LLMs to create/edit vocal tracks e.g. adding lyrics to the melody.Last updated -6Apache 2.0
- -security-license-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -1JavaScriptMIT License
ElevenLabs MCP Serverofficial
AsecurityAlicenseAqualityAn official Model Context Protocol (MCP) server that enables AI clients to interact with ElevenLabs' Text to Speech and audio processing APIs, allowing for speech generation, voice cloning, audio transcription, and other audio-related tasks.Last updated -19543PythonMIT License