Minimax MCPツール

AI を活用した画像生成とテキスト読み上げ機能のための Minimax API 統合を備えたモデル コンテキスト プロトコル (MCP) サーバー実装。
特徴
- 画像生成: Minimaxのimage-01モデルを使用して、テキストプロンプトに基づいて高品質の画像を生成します。
- テキスト読み上げ(TTS) :さまざまな音声オプション、感情、オーディオ形式を使用して、テキストを自然な音声に変換します。
- 簡単な統合: Windsurf エディターを MCP サーバーとしてシームレスに統合します。
設定
前提条件
構成
MCP 構成ファイルを作成または更新します。
- Windsurf の場合:
~/.codeium/windsurf/mcp_config.json
- カーソルの場合:
~/.cursor/config/mcp_config.json
どちらのエディターも同じ設定形式を使用します。
{
"mcpServers": {
"minimax-mcp-tools": {
"command": "npx",
"args": [
"minimax-mcp-tools"
],
"env": {
"MINIMAX_API_KEY": "your-minimax-api-key",
"MINIMAX_GROUP_ID": "your-minimax-group-id"
}
}
}
}
MCPインターフェース
画像生成
テキストプロンプトに基づいて画像を生成します。
// Example parameters for image generation
{
"prompt": "A mountain landscape at sunset",
"aspectRatio": "16:9",
"n": 1,
"outputFile": "/absolute/path/to/image.jpg",
"subjectReference": "/path/to/reference.jpg" // Optional: local file or URL
}
パラメータ:
prompt
(必須): 生成する画像の説明outputFile
(必須): 生成された画像ファイルを保存する絶対パス。ディレクトリは既に存在している必要があります。複数の画像(n>1)を生成する場合、ファイル名は連番で付けられます(例:'image-1.jpg'、'image-2.jpg')。aspectRatio
(オプション): 画像のアスペクト比 (デフォルト: "1:1"、オプション: "1:1"、"16:9"、"4:3"、"3:2"、"2:3"、"3:4"、"9:16"、"21:9")n
(オプション): 生成する画像の数(デフォルト: 1、範囲: 1~9)。n>1の場合、出力ファイル名は自動的に番号付けされます。subjectReference
(オプション): キャラクター参照用のローカル画像ファイルまたは公開URLへのパス。指定すると、生成される画像はこれをキャラクターの外観の参照として使用します。サポートされる形式:JPG、JPEG、PNG
テキスト読み上げ
さまざまなカスタマイズ オプションを使用してテキストを音声に変換します。
// Example parameters for text-to-speech
{
"text": "Hello, this is a test of the text-to-speech functionality.",
"model": "speech-02-hd",
"voiceId": "female-shaonv",
"speed": 1.0,
"volume": 1.0,
"pitch": 0,
"emotion": "happy",
"format": "mp3",
"outputFile": "/absolute/path/to/audio.mp3",
"subtitleEnable": true
}
text
(必須): 音声に変換するテキスト(最大10,000文字)outputFile
(必須): 生成されたオーディオファイルを保存する絶対パスmodel
(オプション): 使用するモデルバージョン (デフォルト: "speech-02-hd"、オプション: "speech-02-hd"、"speech-02-turbo")speech-02-hd
: 優れた音色の類似性、リズムの安定性、スタジオグレードのオーディオ品質を備えた高解像度モデルspeech-02-turbo
: 優れたパフォーマンスと低レイテンシ、強化された多言語機能を備えた高速モデル
voiceId
(オプション): 使用する音声ID (デフォルト: "male-qn-qingse")speed
(オプション):音声速度(デフォルト:1.0、範囲:0.5~2.0)volume
(オプション):音声の音量(デフォルト:1.0、範囲:0.1~10.0)pitch
(オプション):音声ピッチ(デフォルト:0、範囲:-12~12)emotion
(オプション):スピーチの感情(デフォルト:「中立」、オプション:「幸せ」、「悲しい」、「怒り」、「恐ろしい」、「嫌悪感」、「驚き」、「中立」)timberWeights
(オプション):音声ミキシング設定。重み付けされた最大4つの異なる音声をミキシングできます。"timberWeights": [
{ "voice_id": "male-qn-qingse", "weight": 70 },
{ "voice_id": "female-shaonv", "weight": 30 }
]
オーディオ設定:
format
(オプション):オーディオフォーマット(デフォルト:「mp3」、オプション:「mp3」、「pcm」、「flac」、「wav」)sampleRate
(オプション): Hz 単位のサンプルレート (デフォルト: 32000、オプション: 8000、16000、22050、24000、32000、44100)bitrate
(オプション):MP3形式のビットレート(デフォルト:128000、オプション:32000、64000、128000、256000)channel
(オプション):オーディオチャンネルの数(デフォルト:1、オプション:1=モノラル、2=ステレオ)
高度な機能:
latexRead
(オプション): LaTeX の数式を読み込むかどうか (デフォルト: false)pronunciationDict
(オプション): 発音置換のリスト"pronunciationDict": ["处理/(chu3)(li3)", "危险/dangerous"]
stream
(オプション):ストリーミングモードを使用するかどうか(デフォルト:false)languageBoost
(オプション):特定の言語の認識を強化する- オプション: 「中国語」、「中国語(ユーエ語)」、「英語」、「アラビア語」、「ロシア語」、「スペイン語」、「フランス語」、「ポルトガル語」、「ドイツ語」、「トルコ語」、「オランダ語」、「ウクライナ語」、「ベトナム語」、「インドネシア語」、「日本語」、「イタリア語」、「韓国語」、「タイ語」、「ポーランド語」、「ルーマニア語」、「ギリシャ語」、「チェコ語」、「フィンランド語」、「ヒンディー語」、「自動」
subtitleEnable
(オプション): 字幕生成を有効にするかどうか (デフォルト: false)
ライセンス
マサチューセッツ工科大学
貢献
貢献を歓迎します!お気軽にプルリクエストを送信してください。
謝辞