Herramientas Minimax MCP

Una implementación de servidor de Protocolo de contexto de modelo (MCP) con integración de API Minimax para generación de imágenes impulsada por IA y funcionalidad de texto a voz.
Características
Generación de imágenes : genere imágenes de alta calidad basadas en indicaciones de texto utilizando el modelo image-01 de Minimax
Texto a voz (TTS) : convierte texto en voz con sonido natural con diversas opciones de voz, emociones y formatos de audio.
Fácil integración : se integra perfectamente con el editor Windsurf como servidor MCP
Related MCP server: Vibe Coder MCP
Configuración
Prerrequisitos
Node.js 16 o superior
Una clave API de Minimax (obtenida en la Plataforma Minimax )
ID de grupo Minimax para la funcionalidad TTS
Configuración
Cree o actualice su archivo de configuración MCP:
Para Windsurf:
~/.codeium/windsurf/mcp_config.jsonPara el cursor:
~/.cursor/config/mcp_config.json
Ambos editores utilizan el mismo formato de configuración:
Interfaz MCP
Generación de imágenes
Generar imágenes basadas en indicaciones de texto:
Parámetros:
prompt(obligatorio): Descripción de la imagen a generaroutputFile(obligatorio): Ruta absoluta donde guardar el archivo de imagen generado. El directorio debe existir previamente . Al generar varias imágenes (n>1), los archivos se nombrarán con números secuenciales (p. ej., 'imagen-1.jpg', 'imagen-2.jpg').aspectRatio(opcional): Relación de aspecto de la imagen (predeterminado: "1:1", opciones: "1:1", "16:9", "4:3", "3:2", "2:3", "3:4", "9:16", "21:9")n(opcional): Número de imágenes a generar (predeterminado: 1, rango: 1-9). Si n > 1, los nombres de los archivos de salida se numeran automáticamente.subjectReference(opcional): Ruta a un archivo de imagen local o URL pública para referencia de personajes. Si se proporciona, la imagen generada la usará como referencia para la apariencia de los personajes. Formatos compatibles: JPG, JPEG, PNG
Texto a voz
Convierte texto a voz con varias opciones de personalización:
Parámetros básicos:
text(obligatorio): Texto a convertir a voz (máximo 10.000 caracteres)outputFile(obligatorio): ruta absoluta para guardar el archivo de audio generadomodel(opcional): Versión del modelo a utilizar (predeterminado: "speech-02-hd", opciones: "speech-02-hd", "speech-02-turbo")speech-02-hd: Modelo de alta definición con excelente similitud de timbre, estabilidad de ritmo y calidad de audio de estudio.speech-02-turbo: Modelo rápido con excelente rendimiento y baja latencia, capacidades multilingües mejoradas
voiceId(opcional): ID de voz a utilizar (predeterminado: "male-qn-qingse")speed(opcional): Velocidad del habla (predeterminado: 1.0, rango: 0.5-2.0)volume(opcional): Volumen de voz (predeterminado: 1.0, rango: 0.1-10.0)pitch(opcional): tono del habla (predeterminado: 0, rango: -12 a 12)emotion(opcional): Emoción del discurso (predeterminado: "neutral", opciones: "feliz", "triste", "enojado", "temeroso", "disgustado", "sorprendido", "neutral")timberWeights(opcional): configuración de mezcla de voces, permite mezclar hasta 4 voces diferentes con pesos"timberWeights": [ { "voice_id": "male-qn-qingse", "weight": 70 }, { "voice_id": "female-shaonv", "weight": 30 } ]
Configuración de audio:
format(opcional): Formato de audio (predeterminado: "mp3", opciones: "mp3", "pcm", "flac", "wav")sampleRate(opcional): frecuencia de muestreo en Hz (predeterminado: 32000, opciones: 8000, 16000, 22050, 24000, 32000, 44100)bitrate(opcional): tasa de bits para el formato MP3 (predeterminado: 128000, opciones: 32000, 64000, 128000, 256000)channel(opcional): Número de canales de audio (predeterminado: 1, opciones: 1=mono, 2=estéreo)
Funciones avanzadas:
latexRead(opcional): si se deben leer fórmulas LaTeX (predeterminado: falso)pronunciationDict(opcional): Lista de reemplazos de pronunciación"pronunciationDict": ["处理/(chu3)(li3)", "危险/dangerous"]stream(opcional): si se utilizará el modo de transmisión (predeterminado: falso)languageBoost(opcional): mejora el reconocimiento de idiomas específicosOpciones: "Chino", "Chino, Yue", "Inglés", "Árabe", "Ruso", "Español", "Francés", "Portugués", "Alemán", "Turco", "Holandés", "Ucraniano", "Vietnamita", "Indonesio", "Japonés", "Italiano", "Coreano", "Tailandés", "Polaco", "Rumano", "Griego", "Checo", "Finlandés", "Hindi", "Automático"
subtitleEnable(opcional): si se debe habilitar la generación de subtítulos (predeterminado: falso)
Licencia
Instituto Tecnológico de Massachusetts (MIT)
Contribuyendo
¡Agradecemos sus contribuciones! No dude en enviar una solicitud de incorporación de cambios.
Expresiones de gratitud
API de Minimax para proporcionar los modelos de IA
Protocolo de contexto de modelo para la especificación MCP