Minimax MCP 工具

模型上下文协议 (MCP) 服务器实现与 Minimax API 集成,用于 AI 驱动的图像生成和文本转语音功能。
特征
- 图像生成:使用 Minimax 的 image-01 模型根据文本提示生成高质量图像
- 文本转语音 (TTS) :使用各种语音选项、情感和音频格式将文本转换为自然的语音
- 轻松集成:作为 MCP 服务器与 Windsurf 编辑器无缝集成
设置
先决条件
- Node.js 16 或更高版本
- Minimax API 密钥(从Minimax 平台获取)
- 用于 TTS 功能的 Minimax 组 ID
配置
创建或更新您的 MCP 配置文件:
- 对于 Windsurf:
~/.codeium/windsurf/mcp_config.json
- 对于光标:
~/.cursor/config/mcp_config.json
两个编辑器使用相同的配置格式:
{
"mcpServers": {
"minimax-mcp-tools": {
"command": "npx",
"args": [
"minimax-mcp-tools"
],
"env": {
"MINIMAX_API_KEY": "your-minimax-api-key",
"MINIMAX_GROUP_ID": "your-minimax-group-id"
}
}
}
}
MCP 接口
图像生成
根据文字提示生成图片:
// Example parameters for image generation
{
"prompt": "A mountain landscape at sunset",
"aspectRatio": "16:9",
"n": 1,
"outputFile": "/absolute/path/to/image.jpg",
"subjectReference": "/path/to/reference.jpg" // Optional: local file or URL
}
参数:
prompt
(必需):要生成的图像的描述outputFile
(必需):保存生成的图像文件的绝对路径。该目录必须已存在。当生成多张图片(n>1)时,文件将以连续的数字命名(例如,“image-1.jpg”、“image-2.jpg”)。aspectRatio
(可选):图像的纵横比(默认值:“1:1”,选项:“1:1”,“16:9”,“4:3”,“3:2”,“2:3”,“3:4”,“9:16”,“21:9”)n
(可选):生成的图像数量(默认值:1,范围:1-9)。当 n>1 时,输出文件名将自动编号。subjectReference
(可选):指向本地图像文件或公共 URL 的路径,用于角色参考。提供后,生成的图像将以此作为角色外观的参考。支持格式:JPG、JPEG、PNG
文本转语音
使用各种自定义选项将文本转换为语音:
// Example parameters for text-to-speech
{
"text": "Hello, this is a test of the text-to-speech functionality.",
"model": "speech-02-hd",
"voiceId": "female-shaonv",
"speed": 1.0,
"volume": 1.0,
"pitch": 0,
"emotion": "happy",
"format": "mp3",
"outputFile": "/absolute/path/to/audio.mp3",
"subtitleEnable": true
}
基本参数:
text
(必填):要转换为语音的文本(最多 10,000 个字符)outputFile
(必需):保存生成的音频文件的绝对路径model
(可选):要使用的模型版本(默认值:“speech-02-hd”,选项:“speech-02-hd”,“speech-02-turbo”)speech-02-hd
:高清模型,音色相似度高,节奏稳定性高,音质达到录音棚级别speech-02-turbo
:性能卓越、延迟低的快速模型,增强了多语言能力
voiceId
(可选):要使用的语音ID(默认值:“male-qn-qingse”)speed
(可选):语速(默认值:1.0,范围:0.5-2.0)volume
(可选):语音音量(默认值:1.0,范围:0.1-10.0)pitch
(可选):语音音调(默认值:0,范围:-12 至 12)emotion
(可选):演讲的情绪(默认:“中性”,选项:“高兴”,“悲伤”,“愤怒”,“恐惧”,“厌恶”,“惊讶”,“中性”)timberWeights
(可选):语音混合设置,允许混合最多 4 种不同重量的声音"timberWeights": [
{ "voice_id": "male-qn-qingse", "weight": 70 },
{ "voice_id": "female-shaonv", "weight": 30 }
]
音频设置:
format
(可选):音频格式(默认:“mp3”,选项:“mp3”,“pcm”,“flac”,“wav”)sampleRate
(可选):采样率(以赫兹为单位)(默认值:32000,选项:8000、16000、22050、24000、32000、44100)bitrate
(可选):MP3 格式的比特率(默认值:128000,选项:32000、64000、128000、256000)channel
(可选):音频通道数(默认值:1,选项:1=单声道,2=立体声)
高级功能:
latexRead
(可选):是否读取 LaTeX 公式(默认值:false)pronunciationDict
(可选):发音替换列表"pronunciationDict": ["处理/(chu3)(li3)", "危险/dangerous"]
stream
(可选):是否使用流模式(默认值:false)languageBoost
(可选):增强对特定语言的识别- 选项:“中文”、“粤语”、“英语”、“阿拉伯语”、“俄语”、“西班牙语”、“法语”、“葡萄牙语”、“德语”、“土耳其语”、“荷兰语”、“乌克兰语”、“越南语”、“印尼语”、“日语”、“意大利语”、“韩语”、“泰语”、“波兰语”、“罗马尼亚语”、“希腊语”、“捷克语”、“芬兰语”、“印地语”、“自动”
subtitleEnable
(可选):是否启用字幕生成(默认值:false)
执照
麻省理工学院
贡献
欢迎贡献代码!欢迎提交 Pull 请求。
致谢