录音机 MCP 服务器
一个 MCP 服务器,用于录制音频并使用 OpenAI 的 Whisper 模型进行转录。设计为 Goose 自定义扩展或独立的 MCP 服务器。
特征
使用默认麦克风录制音频
使用 Whisper 转录录音
作为自定义扩展与 Goose AI 代理集成
包括常见录音场景的提示
安装
用法
作为独立的 MCP 服务器
使用 MCP Inspector 进行测试
MCP 检查器提供了一个交互式界面来测试您的服务器:
借助 Goose AI Agent
打开 Goose 并转到“设置”>“扩展”>“添加”>“命令行扩展”
将名称设置为
voice-recorder
在命令字段中,输入 voice-recorder-mcp 可执行文件的完整路径:
/full/path/to/voice-recorder-mcp或者针对特定模型:
/full/path/to/voice-recorder-mcp --model medium.en要查找路径,请运行:
which voice-recorder-mcp基本功能不需要环境变量
与 Goose 开始对话并介绍录音机:“我希望你根据录音机返回的转录采取行动。例如,如果我口述像 1 + 1 这样的计算,请返回结果。”
可用工具
start_recording
:开始从默认麦克风录制音频stop_and_transcribe
:停止录音并将音频转录为文本record_and_transcribe
:录制指定时长的音频并将其转录
耳语模型
此扩展支持各种 Whisper 模型尺寸:
模型 | 速度 | 准确性 | 内存使用情况 | 用例 |
| 最快的 | 最低 | 最小 | 测试、快速转录 |
| 快速地 | 好的 | 低的 | 日常使用(默认) |
| 中等的 | 更好的 | 缓和 | 良好的平衡 |
| 慢的 | 高的 | 高的 | 重要录音 |
| 最慢 | 最高 | 非常高 | 批判性抄本 |
.en
后缀表示专门针对英语的模型,对于英语内容来说速度更快、更准确。
要求
Python 3.12+
音频输入设备(麦克风)
配置
您可以使用环境变量配置服务器:
故障排除
常见问题
没有录制音频:检查您的麦克风权限和设置
模型下载错误:确保初始模型下载时有稳定的互联网连接
与 Goose 集成:确保命令路径正确
音频质量问题:尝试调整采样率(默认值:16000)
贡献
欢迎贡献代码!欢迎提交 Pull 请求。
分叉存储库
创建你的功能分支(
git checkout -b feature/amazing-feature
)提交您的更改(
git commit -m 'Add some amazing feature'
)推送到分支(
git push origin feature/amazing-feature
)打开拉取请求
执照
该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅 LICENSE 文件。
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
支持从麦克风录制音频,并使用 OpenAI 的 Whisper 模型进行转录。既可以作为独立的 MCP 服务器,也可以作为 Goose AI 代理扩展使用。
Related Resources
Related MCP Servers
- -securityAlicense-qualityA Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.Last updated -69MIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -127MIT License
- -securityFlicense-qualityAn MCP server that downloads videos/extracts audio from various platforms like YouTube, Bilibili, and TikTok, then transcribes them to text using OpenAI's Whisper model.Last updated -6
- -securityAlicense-qualityA portable, Dockerized Python tool that implements Model Context Protocol for audio transcription using Whisper models, featuring both CLI and web UI interfaces for converting audio files to JSON transcriptions.Last updated -MIT License