Servidor MCP Whissle
Un servidor basado en Python que proporciona acceso a los puntos finales de la API de Whissle para conversión de voz a texto, diarización, traducción y resumen de texto.
⚠️ Notas importantes
- Este servidor proporciona acceso a los puntos finales de la API de Whissle, lo que puede generar costos.
- Cada herramienta que realiza una llamada API está marcada con una advertencia de costo
- Por favor, siga estas pautas:
- Utilice las herramientas únicamente cuando el usuario lo solicite explícitamente
- Para las herramientas que procesan audio, tenga en cuenta la duración del audio, ya que afecta los costos.
- Algunas operaciones como la traducción o el resumen pueden tener costos más elevados.
- Las herramientas sin advertencias de costo en su descripción son de uso gratuito ya que solo leen datos existentes
Prerrequisitos
- Python 3.8 o superior
- pip (instalador de paquetes de Python)
- Un token de autenticación de la API de Whissle
Instalación
- Clonar el repositorio:
- Crear y activar un entorno virtual:
- Instalar los paquetes necesarios:
- Configurar variables de entorno: Cree un archivo
.env
en la raíz del proyecto con el siguiente contenido:⚠️ Importante : Nunca envíes tu token al repositorio. El archivo.env
está incluido en.gitignore
para evitar envíos accidentales. - Configurar la integración de Claude: copie
claude_config.example.json
enclaude_config.json
y actualice las rutas:- Reemplace
/path/to/your/venv/bin/python
con la ruta real a su intérprete de Python en el entorno virtual - Reemplace
/path/to/whissle_mcp/server.py
con la ruta real a su archivo server.py
- Reemplace
Configuración
Variables de entorno
WHISSLE_AUTH_TOKEN
: Su token de autenticación de la API de Whissle (obligatorio)- Esta es una credencial confidencial que nunca debe compartirse ni entregarse al control de versiones.
- Comuníquese con su administrador para obtener un token válido
- Guárdelo de forma segura en su archivo
.env
local
WHISSLE_MCP_BASE_PATH
: Directorio base para operaciones de archivos (opcional, el valor predeterminado es el escritorio del usuario)
Formatos de audio compatibles
El servidor admite los siguientes formatos de audio:
- WAV (.wav)
- MP3 (.mp3)
- OGG (.ogg)
- FLAC (.flac)
- M4A (.m4a)
Límites de tamaño de archivo
- Tamaño máximo de archivo: 25 MB
- Los archivos que superen este límite serán rechazados.
Herramientas disponibles
1. Voz a texto
Convierte voz en texto usando la API Whissle.
2. Diarización del habla
Convierte voz en texto con identificación del hablante.
3. Traducción de texto
Traducir texto de un idioma a otro.
4. Resumen del texto
Resumir texto utilizando un modelo LLM.
5. Enumere los modelos ASR
Enumere todos los modelos ASR disponibles y sus capacidades.
Formato de respuesta
Conversión de voz a texto y diarización
Traducción
Resumen
Respuesta de error
Manejo de errores
El servidor incluye un manejo robusto de errores con:
- Reintentos automáticos para errores HTTP 500
- Mensajes de error detallados para diferentes escenarios de falla
- Validación de archivos (existencia, tamaño, formato)
- Comprobaciones de autenticación
Tipos de errores comunes:
- HTTP 500: Error del servidor (con mecanismo de reintento)
- HTTP 413: Archivo demasiado grande
- HTTP 415: Formato de archivo no compatible
- HTTP 401/403: Error de autenticación
Ejecución del servidor
- Iniciar el servidor:
- El servidor estará disponible en el puerto MCP predeterminado (normalmente 8000)
Pruebas
Se proporciona un script de prueba para verificar la funcionalidad de todas las herramientas:
El script de prueba hará lo siguiente:
- Comprobar el token de autenticación
- Pruebe todas las herramientas disponibles
- Proporcionar resultados detallados de cada operación
- Manejar los errores con elegancia
Apoyo
Para problemas o preguntas, por favor:
- Consulte los mensajes de error para obtener detalles específicos
- Verifique su token de autenticación
- Asegúrese de que sus archivos de audio cumplan con los requisitos
- Comuníquese con el soporte de Whissle para problemas relacionados con la API
Licencia
[Agregue la información de su licencia aquí]
You must be authenticated.
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Un servidor basado en Python que proporciona acceso a los puntos finales de la API de Whissle para conversión de voz a texto, diarización, traducción y resumen de texto.
Related MCP Servers
- AsecurityAlicenseAqualityIntegrates with ElevenLabs text-to-speech API.Last updated -636PythonMIT License
- -securityFlicense-qualityA server providing text-to-speech and speech-to-text functionalities using Windows' native speech services without external dependencies.Last updated -4JavaScript
- AsecurityAlicenseAqualityA Python server that enables language models like Claude to interact with WhatsApp Business API through GreenAPI, supporting features like sending messages and managing groups.Last updated -54PythonMIT License
- -securityAlicense-qualityA Python package that implements a Model Context Protocol server for integrating with Flowise API, allowing users to list chatflows, create predictions, and dynamically register tools for Flowise chatflows or assistants.Last updated -PythonMIT License