Voice Recorder MCP Server

by DefiBax

Integrations

  • Provides installation support via GitHub repository, allowing users to clone and install the voice-recorder-mcp from DefiBax's GitHub account

  • Uses OpenAI's Whisper model for audio transcription, enabling conversion of recorded voice to text with different model sizes for varying accuracy and performance needs

录音机 MCP 服务器

一个 MCP 服务器,用于录制音频并使用 OpenAI 的 Whisper 模型进行转录。设计为 Goose 自定义扩展或独立的 MCP 服务器。

特征

  • 使用默认麦克风录制音频
  • 使用 Whisper 转录录音
  • 作为自定义扩展与 Goose AI 代理集成
  • 包括常见录音场景的提示

安装

# Install from source git clone https://github.com/DefiBax/voice-recorder-mcp.git cd voice-recorder-mcp pip install -e .

用法

作为独立的 MCP 服务器

# Run with default settings (base.en model) voice-recorder-mcp # Use a specific Whisper model voice-recorder-mcp --model medium.en # Adjust sample rate voice-recorder-mcp --sample-rate 44100

使用 MCP Inspector 进行测试

MCP 检查器提供了一个交互式界面来测试您的服务器:

# Install the MCP Inspector npm install -g @modelcontextprotocol/inspector # Run your server with the inspector npx @modelcontextprotocol/inspector voice-recorder-mcp

借助 Goose AI Agent

  1. 打开 Goose 并转到“设置”>“扩展”>“添加”>“命令行扩展”
  2. 将名称设置为voice-recorder
  3. 在命令字段中,输入 voice-recorder-mcp 可执行文件的完整路径:
    /full/path/to/voice-recorder-mcp
    或者针对特定模型:
    /full/path/to/voice-recorder-mcp --model medium.en
    要查找路径,请运行:
    which voice-recorder-mcp
  4. 基本功能不需要环境变量
  5. 与 Goose 开始对话并介绍录音机:“我希望你根据录音机返回的转录采取行动。例如,如果我口述像 1 + 1 这样的计算,请返回结果。”

可用工具

  • start_recording :开始从默认麦克风录制音频
  • stop_and_transcribe :停止录音并将音频转录为文本
  • record_and_transcribe :录制指定时长的音频并将其转录

耳语模型

此扩展支持各种 Whisper 模型尺寸:

模型速度准确性内存使用情况用例
tiny.en最快的最低最小测试、快速转录
base.en快速地好的低的日常使用(默认)
small.en中等的更好的缓和良好的平衡
medium.en慢的高的高的重要录音
large最慢最高非常高批判性抄本

.en后缀表示专门针对英语的模型,对于英语内容来说速度更快、更准确。

要求

  • Python 3.12+
  • 音频输入设备(麦克风)

配置

您可以使用环境变量配置服务器:

# Set Whisper model export WHISPER_MODEL=small.en # Set audio sample rate export SAMPLE_RATE=44100 # Set maximum recording duration (seconds) export MAX_DURATION=120 # Then run the server voice-recorder-mcp

故障排除

常见问题

  • 没有录制音频:检查您的麦克风权限和设置
  • 模型下载错误:确保初始模型下载时有稳定的互联网连接
  • 与 Goose 集成:确保命令路径正确
  • 音频质量问题:尝试调整采样率(默认值:16000)

贡献

欢迎贡献代码!欢迎提交 Pull 请求。

  1. 分叉存储库
  2. 创建你的功能分支( git checkout -b feature/amazing-feature
  3. 提交您的更改( git commit -m 'Add some amazing feature'
  4. 推送到分支( git push origin feature/amazing-feature
  5. 打开拉取请求

执照

该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅 LICENSE 文件。

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

支持从麦克风录制音频,并使用 OpenAI 的 Whisper 模型进行转录。既可以作为独立的 MCP 服务器,也可以作为 Goose AI 代理扩展使用。

  1. Features
    1. Installation
      1. Usage
        1. As a Standalone MCP Server
        2. Testing with MCP Inspector
        3. With Goose AI Agent
      2. Available Tools
        1. Whisper Models
          1. Requirements
            1. Configuration
              1. Troubleshooting
                1. Common Issues
              2. Contributing
                1. License

                  Related MCP Servers

                  • A
                    security
                    A
                    license
                    A
                    quality
                    A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                    Last updated -
                    1
                    2
                    JavaScript
                    MIT License
                    • Linux
                    • Apple
                  • A
                    security
                    A
                    license
                    A
                    quality
                    MCP server for Synthesizer V AI Vocal Studio, which allows LLMs to create/edit vocal tracks e.g. adding lyrics to the melody.
                    Last updated -
                    6
                    Apache 2.0
                    • Apple
                  • -
                    security
                    -
                    license
                    -
                    quality
                    An MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.
                    Last updated -
                    1
                    JavaScript
                    MIT License
                  • A
                    security
                    A
                    license
                    A
                    quality
                    An official Model Context Protocol (MCP) server that enables AI clients to interact with ElevenLabs' Text to Speech and audio processing APIs, allowing for speech generation, voice cloning, audio transcription, and other audio-related tasks.
                    Last updated -
                    19
                    543
                    Python
                    MIT License
                    • Apple

                  View all related MCP servers

                  ID: xryde429jb