Skip to main content
Glama

录音机 MCP 服务器

一个 MCP 服务器,用于录制音频并使用 OpenAI 的 Whisper 模型进行转录。设计为 Goose 自定义扩展或独立的 MCP 服务器。

特征

  • 使用默认麦克风录制音频

  • 使用 Whisper 转录录音

  • 作为自定义扩展与 Goose AI 代理集成

  • 包括常见录音场景的提示

安装

# Install from source git clone https://github.com/DefiBax/voice-recorder-mcp.git cd voice-recorder-mcp pip install -e .

用法

作为独立的 MCP 服务器

# Run with default settings (base.en model) voice-recorder-mcp # Use a specific Whisper model voice-recorder-mcp --model medium.en # Adjust sample rate voice-recorder-mcp --sample-rate 44100

使用 MCP Inspector 进行测试

MCP 检查器提供了一个交互式界面来测试您的服务器:

# Install the MCP Inspector npm install -g @modelcontextprotocol/inspector # Run your server with the inspector npx @modelcontextprotocol/inspector voice-recorder-mcp

借助 Goose AI Agent

  1. 打开 Goose 并转到“设置”>“扩展”>“添加”>“命令行扩展”

  2. 将名称设置为voice-recorder

  3. 在命令字段中,输入 voice-recorder-mcp 可执行文件的完整路径:

    /full/path/to/voice-recorder-mcp

    或者针对特定模型:

    /full/path/to/voice-recorder-mcp --model medium.en

    要查找路径,请运行:

    which voice-recorder-mcp
  4. 基本功能不需要环境变量

  5. 与 Goose 开始对话并介绍录音机:“我希望你根据录音机返回的转录采取行动。例如,如果我口述像 1 + 1 这样的计算,请返回结果。”

可用工具

  • start_recording :开始从默认麦克风录制音频

  • stop_and_transcribe :停止录音并将音频转录为文本

  • record_and_transcribe :录制指定时长的音频并将其转录

耳语模型

此扩展支持各种 Whisper 模型尺寸:

模型

速度

准确性

内存使用情况

用例

tiny.en

最快的

最低

最小

测试、快速转录

base.en

快速地

好的

低的

日常使用(默认)

small.en

中等的

更好的

缓和

良好的平衡

medium.en

慢的

高的

高的

重要录音

large

最慢

最高

非常高

批判性抄本

.en后缀表示专门针对英语的模型,对于英语内容来说速度更快、更准确。

要求

  • Python 3.12+

  • 音频输入设备(麦克风)

配置

您可以使用环境变量配置服务器:

# Set Whisper model export WHISPER_MODEL=small.en # Set audio sample rate export SAMPLE_RATE=44100 # Set maximum recording duration (seconds) export MAX_DURATION=120 # Then run the server voice-recorder-mcp

故障排除

常见问题

  • 没有录制音频:检查您的麦克风权限和设置

  • 模型下载错误:确保初始模型下载时有稳定的互联网连接

  • 与 Goose 集成:确保命令路径正确

  • 音频质量问题:尝试调整采样率(默认值:16000)

贡献

欢迎贡献代码!欢迎提交 Pull 请求。

  1. 分叉存储库

  2. 创建你的功能分支( git checkout -b feature/amazing-feature

  3. 提交您的更改( git commit -m 'Add some amazing feature'

  4. 推送到分支( git push origin feature/amazing-feature

  5. 打开拉取请求

执照

该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅 LICENSE 文件。

-
security - not tested
A
license - permissive license
-
quality - not tested

Related MCP Servers

  • -
    security
    A
    license
    -
    quality
    A Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.
    Last updated -
    75
    MIT License
    • Linux
    • Apple
  • A
    security
    A
    license
    A
    quality
    A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
    Last updated -
    1
    0
    9
    MIT License
    • Linux
    • Apple
  • -
    security
    F
    license
    -
    quality
    An MCP server that downloads videos/extracts audio from various platforms like YouTube, Bilibili, and TikTok, then transcribes them to text using OpenAI's Whisper model.
    Last updated -
    6
    • Linux
    • Apple
  • -
    security
    A
    license
    -
    quality
    A portable, Dockerized Python tool that implements Model Context Protocol for audio transcription using Whisper models, featuring both CLI and web UI interfaces for converting audio files to JSON transcriptions.
    Last updated -
    MIT License
    • Linux

View all related MCP servers

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/DefiBax/mcp_servers'

If you have feedback or need assistance with the MCP directory API, please join our Discord server