Voice Recorder MCP Server

by DefiBax

Integrations

  • Provides installation support via GitHub repository, allowing users to clone and install the voice-recorder-mcp from DefiBax's GitHub account

  • Uses OpenAI's Whisper model for audio transcription, enabling conversion of recorded voice to text with different model sizes for varying accuracy and performance needs

ボイスレコーダーMCPサーバー

OpenAIのWhisperモデルを用いて音声を録音し、文字起こしするためのMCPサーバー。Gooseカスタム拡張機能またはスタンドアロンMCPサーバーとして機能するように設計されています。

特徴

  • デフォルトのマイクから音声を録音する
  • Whisperを使用して録音を書き起こす
  • Goose AIエージェントとカスタム拡張機能として統合
  • 一般的な録音シナリオのプロンプトが含まれています

インストール

# Install from source git clone https://github.com/DefiBax/voice-recorder-mcp.git cd voice-recorder-mcp pip install -e .

使用法

スタンドアロンMCPサーバーとして

# Run with default settings (base.en model) voice-recorder-mcp # Use a specific Whisper model voice-recorder-mcp --model medium.en # Adjust sample rate voice-recorder-mcp --sample-rate 44100

MCP Inspectorによるテスト

MCP Inspector は、サーバーをテストするためのインタラクティブなインターフェースを提供します。

# Install the MCP Inspector npm install -g @modelcontextprotocol/inspector # Run your server with the inspector npx @modelcontextprotocol/inspector voice-recorder-mcp

Goose AIエージェント

  1. Gooseを開き、「設定」>「拡張機能」>「追加」>「コマンドライン拡張機能」に進みます。
  2. 名前をvoice-recorderに設定する
  3. コマンド フィールドに、voice-recorder-mcp 実行可能ファイルへのフル パスを入力します。
    /full/path/to/voice-recorder-mcp
    または特定のモデルの場合:
    /full/path/to/voice-recorder-mcp --model medium.en
    パスを見つけるには、次を実行します。
    which voice-recorder-mcp
  4. 基本的な機能には環境変数は必要ありません
  5. Goose との会話を開始し、次のようにレコーダーを紹介します。「ボイスレコーダーから返された文字起こしに基づいてアクションを実行してほしいです。たとえば、1+1 のような計算を音声で指示した場合、結果を返してください。」

利用可能なツール

  • start_recording : デフォルトのマイクから音声の録音を開始します
  • stop_and_transcribe : 録音を停止し、音声をテキストに書き起こす
  • record_and_transcribe : 指定した時間だけ音声を録音し、書き起こす

ウィスパーモデル

この拡張機能は、さまざまな Whisper モデル サイズをサポートしています。

モデルスピード正確さメモリ使用量使用事例
tiny.en最速最低最小限テスト、クイックトランスクリプション
base.en速い良い低い日常使用(デフォルト)
small.en中くらいより良い適度バランスが良い
medium.en遅い高い高い重要な録音
large最も遅い最高非常に高い重要な転写

.enサフィックスは、英語に特化したモデルを示し、英語コンテンツに対してより高速かつ正確です。

要件

  • Python 3.12以上
  • オーディオ入力デバイス(マイク)

構成

環境変数を使用してサーバーを構成できます。

# Set Whisper model export WHISPER_MODEL=small.en # Set audio sample rate export SAMPLE_RATE=44100 # Set maximum recording duration (seconds) export MAX_DURATION=120 # Then run the server voice-recorder-mcp

トラブルシューティング

よくある問題

  • 音声が録音されません: マイクの権限と設定を確認してください
  • モデルのダウンロードエラー: 最初のモデルのダウンロード時に安定したインターネット接続があることを確認してください
  • Gooseとの統合: コマンドパスが正しいことを確認してください
  • オーディオ品質の問題: サンプルレートを調整してみてください (デフォルト: 16000)

貢献

貢献を歓迎します!お気軽にプルリクエストを送信してください。

  1. リポジトリをフォークする
  2. 機能ブランチを作成します( git checkout -b feature/amazing-feature
  3. 変更をコミットします ( git commit -m 'Add some amazing feature' )
  4. ブランチにプッシュする ( git push origin feature/amazing-feature )
  5. プルリクエストを開く

ライセンス

このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

マイクからの音声を録音し、OpenAIのWhisperモデルを使用して文字起こしできます。スタンドアロンのMCPサーバーとしても、Goose AIエージェント拡張機能としても機能します。

  1. Features
    1. Installation
      1. Usage
        1. As a Standalone MCP Server
        2. Testing with MCP Inspector
        3. With Goose AI Agent
      2. Available Tools
        1. Whisper Models
          1. Requirements
            1. Configuration
              1. Troubleshooting
                1. Common Issues
              2. Contributing
                1. License

                  Related MCP Servers

                  • A
                    security
                    A
                    license
                    A
                    quality
                    A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                    Last updated -
                    1
                    2
                    JavaScript
                    MIT License
                    • Linux
                    • Apple
                  • A
                    security
                    A
                    license
                    A
                    quality
                    MCP server for Synthesizer V AI Vocal Studio, which allows LLMs to create/edit vocal tracks e.g. adding lyrics to the melody.
                    Last updated -
                    6
                    Apache 2.0
                    • Apple
                  • -
                    security
                    -
                    license
                    -
                    quality
                    An MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.
                    Last updated -
                    1
                    JavaScript
                    MIT License
                  • A
                    security
                    A
                    license
                    A
                    quality
                    An official Model Context Protocol (MCP) server that enables AI clients to interact with ElevenLabs' Text to Speech and audio processing APIs, allowing for speech generation, voice cloning, audio transcription, and other audio-related tasks.
                    Last updated -
                    19
                    543
                    Python
                    MIT License
                    • Apple

                  View all related MCP servers

                  ID: xryde429jb