Integrations
Integrates with Google's Gemini models including Gemini Pro and Gemini Flash for efficient document processing and task handling.
Provides access to OpenAI's models such as GPT-3.5, GPT-4o, and GPT-4o mini for cost-effective task delegation and processing.
Leverages Pydantic for data validation across the service's operations and request handling.
Servidor MCP de puerta de enlace LLM
Un servidor de Protocolo de Contexto de Modelo (MCP) que permite la delegación inteligente de agentes de IA de alta capacidad a LLM rentables
Primeros pasos • Características principales • Ejemplos de uso • Arquitectura •
¿Qué es LLM Gateway?
LLM Gateway es un servidor nativo de MCP que permite la delegación inteligente de tareas desde agentes de IA avanzados como Claude 3.7 Sonnet a modelos más rentables como Gemini Flash 2.0 Lite. Proporciona una interfaz unificada para múltiples proveedores de Modelos de Lenguaje Grandes (LLM), optimizando al mismo tiempo el coste, el rendimiento y la calidad.
La visión: Optimización de recursos impulsada por IA
En esencia, LLM Gateway representa un cambio fundamental en la forma en que interactuamos con los sistemas de IA. En lugar de usar un único y costoso modelo para todas las tareas, permite una jerarquía inteligente donde:
- Los modelos avanzados como Claude 3.7 se centran en el razonamiento de alto nivel, la orquestación y las tareas complejas.
- Los modelos rentables gestionan tareas rutinarias de procesamiento, extracción y mecánicas.
- El sistema en general logra un rendimiento cercano al máximo nivel a una fracción del costo.
Este enfoque refleja cómo funcionan las organizaciones humanas: los especialistas manejan decisiones complejas mientras delegan tareas rutinarias a otros con las habilidades adecuadas para esas tareas específicas.
Arquitectura nativa MCP
El servidor se basa en el Protocolo de Contexto de Modelo (MCP) , lo que lo hace especialmente diseñado para funcionar con agentes de IA como Claude. Toda la funcionalidad se expone mediante herramientas MCP, a las que estos agentes pueden llamar directamente, lo que crea un flujo de trabajo fluido para la delegación entre IA.
Caso de uso principal: Delegación de tareas del agente de IA
El objetivo principal de diseño de LLM Gateway es permitir que agentes de IA sofisticados como Claude 3.7 Sonnet deleguen tareas de forma inteligente a modelos menos costosos:
Ejemplo de flujo de trabajo:
- Claude identifica que es necesario resumir un documento (una operación costosa con Claude)
- Claude delega esta tarea a LLM Gateway a través de herramientas MCP
- LLM Gateway dirige la tarea de resumen a Gemini Flash (10-20 veces más económico que Claude)
- El resumen se devuelve a Claude para un razonamiento y toma de decisiones de mayor nivel.
- Claude puede entonces centrar sus capacidades en tareas que realmente requieren su inteligencia.
Este patrón de delegación puede ahorrar entre un 70 y un 90 % en costos de API manteniendo la calidad de salida.
¿Por qué utilizar LLM Gateway?
Delegación de tareas de IA a IA
El caso de uso más poderoso es permitir que los agentes de IA avanzados deleguen tareas rutinarias a modelos más económicos:
- Haga que Claude 3.7 utilice GPT-4o-mini para el resumen inicial del documento
- Deje que Claude use la linterna Gemini 2.0 para la extracción y transformación de datos
- Permitir que Claude organice un flujo de trabajo de varias etapas entre diferentes proveedores
- Permitir que Claude elija el modelo adecuado para cada subtarea específica
💰 Optimización de costos
Los costos de API para modelos avanzados pueden ser considerables. LLM Gateway ayuda a reducir costos mediante:
- Dirigir las tareas adecuadas a modelos más económicos (por ejemplo, $0,01/1000 tokens frente a $0,15/1000 tokens)
- Implementación de almacenamiento en caché avanzado para evitar llamadas API redundantes
- Seguimiento y optimización de costes entre proveedores
- Permitir decisiones de enrutamiento de tareas teniendo en cuenta los costos
Abstracción del proveedor
Evite el bloqueo del proveedor con una interfaz unificada:
- API estándar para OpenAI, Anthropic (Claude), Google (Gemini) y DeepSeek
- Manejo consistente de parámetros y formato de respuesta
- Capacidad de cambiar de proveedor sin cambiar el código de la aplicación
- Protección contra interrupciones y limitaciones específicas del proveedor
Procesamiento de documentos a escala
Procese documentos grandes de manera eficiente:
- Dividir los documentos en fragmentos semánticamente significativos
- Procesar fragmentos en paralelo en múltiples modelos
- Extraer datos estructurados de texto no estructurado
- Generar resúmenes y perspectivas a partir de textos extensos
Características principales
Integración del protocolo MCP
- Servidor MCP nativo : basado en el protocolo de contexto de modelo para la integración de agentes de IA
- Marco de herramientas MCP : toda la funcionalidad expuesta a través de herramientas MCP estandarizadas
- Composición de herramientas : Las herramientas se pueden combinar para flujos de trabajo complejos
- Descubrimiento de herramientas : Soporte para listado de herramientas y descubrimiento de capacidades
Delegación inteligente de tareas
- Enrutamiento de tareas : analizar tareas y dirigirlas a modelos apropiados
- Selección del proveedor : elija al proveedor según los requisitos de la tarea
- Equilibrio costo-rendimiento : optimice el costo, la calidad o la velocidad
- Seguimiento de la delegación : supervise los patrones y resultados de la delegación
Almacenamiento en caché avanzado
- Almacenamiento en caché multinivel : múltiples estrategias de almacenamiento en caché:
- Almacenamiento en caché de coincidencias exactas
- Almacenamiento en caché de similitud semántica
- Almacenamiento en caché consciente de las tareas
- Caché persistente : persistencia basada en disco con acceso rápido a la memoria
- Análisis de caché : seguimiento de ahorros y tasas de aciertos
Herramientas de documentos
- Fragmentación inteligente : múltiples estrategias de fragmentación:
- Fragmentación basada en tokens
- Detección de límites semánticos
- Análisis estructural
- Operaciones de documentos :
- Resumen
- Extracción de entidades
- Generación de preguntas
- Procesamiento por lotes
Extracción de datos estructurados
- Extracción de JSON : extraiga JSON estructurado con validación de esquema
- Extracción de tablas : Extraer tablas en múltiples formatos
- Extracción de clave-valor : extrae pares clave-valor del texto
- Inferencia de esquemas semánticos : generar esquemas a partir de texto
Modo torneo
- Competiciones de código y texto : Soporte para ejecutar competiciones de estilo torneo
- Modelos múltiples : compare resultados de diferentes modelos simultáneamente
- Métricas de rendimiento : evaluar y realizar un seguimiento del rendimiento del modelo
- Almacenamiento de resultados : conserva los resultados del torneo para un análisis posterior
Operaciones vectoriales avanzadas
- Búsqueda semántica : encuentre contenido semánticamente similar en todos los documentos
- Almacenamiento vectorial : almacenamiento y recuperación eficientes de incrustaciones vectoriales
- Búsqueda híbrida : combina funciones de búsqueda semántica y por palabras clave
- Procesamiento por lotes : procese de manera eficiente grandes conjuntos de datos
Ejemplos de uso
Claude utiliza LLM Gateway para el análisis de documentos
Este ejemplo muestra cómo Claude puede usar LLM Gateway para procesar un documento delegando tareas a modelos más económicos:
Comparación de múltiples proveedores para la toma de decisiones
Flujo de trabajo optimizado en costos
Fragmentación de documentos
Para dividir un documento grande en fragmentos más pequeños y manejables:
Finalización de múltiples proveedores
Para obtener finalizaciones para el mismo mensaje de varios proveedores/modelos simultáneamente para comparar:
Extracción de datos estructurados (JSON)
Para extraer información del texto en un esquema JSON específico:
Consulta de recuperación-generación aumentada (RAG)
Para hacer una pregunta usando RAG, donde el sistema recupera el contexto relevante antes de generar una respuesta (asumiendo que se han indexado los documentos relevantes):
Búsqueda fusionada (palabra clave + semántica)
Para realizar una búsqueda híbrida combinando la relevancia de palabras clave y la similitud semántica utilizando Marqo:
Procesamiento de texto local
Para realizar operaciones de texto locales sin conexión sin llamar a una API LLM:
Organización de un torneo de modelos
Para comparar los resultados de varios modelos en una tarea específica (por ejemplo, generación de código):
(Se pueden agregar más ejemplos de herramientas aquí...)
Empezando
Instalación
Configuración del entorno
Crea un archivo .env
con tus claves API:
Ejecución del servidor
Una vez en ejecución, el servidor estará disponible en http://localhost:8013
.
Configuración avanzada
Si bien el archivo .env
es conveniente para la configuración básica, LLM Gateway ofrece opciones de configuración más detalladas administradas principalmente a través de variables de entorno.
Configuración del servidor
SERVER_HOST
: (Predeterminado:127.0.0.1
) La interfaz de red en la que escucha el servidor. Use0.0.0.0
para escuchar en todas las interfaces (necesario para Docker o acceso externo).SERVER_PORT
: (Predeterminado:8013
) El puerto en el que escucha el servidor.API_PREFIX
: (Predeterminado:/
) El prefijo de URL para los puntos finales de la API.
Configuración de registro
LOG_LEVEL
: (Predeterminado:INFO
) Controla el nivel de detalle de los registros. Opciones:DEBUG
,INFO
,WARNING
,ERROR
,CRITICAL
.USE_RICH_LOGGING
: (Predeterminado:true
) Utiliza la biblioteca Rich para registros de consola con formato y colores. Establézcala enfalse
para registros de texto sin formato (mejor para la redirección de archivos o algunos sistemas de agregación de registros).LOG_FORMAT
: (opcional) especifique una cadena de formato de registro personalizado.LOG_TO_FILE
: (opcional, por ejemplo,gateway.log
) Ruta a un archivo donde también se deben escribir los registros.
Configuración de caché
CACHE_ENABLED
: (Predeterminado:true
) Habilita o deshabilita el almacenamiento en caché globalmente.CACHE_TTL
: (Predeterminado:86400
segundos, es decir, 24 horas) Tiempo de vida predeterminado para los elementos almacenados en caché. Es posible que algunas herramientas lo anulen.CACHE_TYPE
: (Predeterminado:memory
) El tipo de caché de backend. Las opciones pueden incluirmemory
,redis
ydiskcache
. ( Nota: Consulte la implementación actual para conocer los tipos admitidos ).CACHE_MAX_SIZE
: (opcional) Número máximo de elementos o tamaño de memoria para el caché.REDIS_URL
: (Obligatorio siCACHE_TYPE=redis
) URL de conexión para el servidor de caché Redis (por ejemplo,redis://localhost:6379/0
).
Tiempos de espera y reintentos del proveedor
PROVIDER_TIMEOUT
: (Predeterminado:120
segundos) Tiempo de espera predeterminado para solicitudes a las API del proveedor LLM.PROVIDER_MAX_RETRIES
: (Predeterminado:3
) Número predeterminado de reintentos para solicitudes de proveedor fallidas (por ejemplo, debido a problemas temporales de red o límites de velocidad).- Se pueden configurar tiempos de espera y reintentos de proveedores específicos a través de variables dedicadas como
OPENAI_TIMEOUT
,ANTHROPIC_MAX_RETRIES
, etc. ( Nota: Verifique la implementación actual ).
Configuración específica de la herramienta
- Algunas herramientas pueden tener sus propias variables de entorno específicas para la configuración (p. ej.,
MARQO_URL
para búsqueda fusionada, parámetros de fragmentación predeterminados). Consulte la documentación o el código fuente de cada herramienta.
Asegúrese siempre de que las variables de entorno estén configuradas correctamente antes de iniciar el servidor. Los cambios suelen requerir reiniciar el servidor.
Consideraciones de implementación
Si bien ejecutar el servidor directamente con python
o docker compose up
es adecuado para el desarrollo y las pruebas, considere lo siguiente para implementaciones más sólidas o de producción:
1. Ejecución como servicio en segundo plano
Para garantizar que la puerta de enlace funcione de forma continua y se reinicie automáticamente en caso de falla o reinicio del servidor, utilice un administrador de procesos:
systemd
(Linux): Crea un archivo de unidad de servicio (p. ej.,/etc/systemd/system/llm-gateway.service
) para gestionar el proceso. Esto permite comandos comosudo systemctl start|stop|restart|status llm-gateway
.supervisor
: Un sistema de control de procesos popular escrito en Python. Configuresupervisord
para supervisar y controlar el proceso de puerta de enlace.- Políticas de reinicio de Docker: si usa Docker (independiente o Compose), configure las políticas de reinicio adecuadas (por ejemplo,
unless-stopped
oalways
) en el comandodocker run
o en el archivodocker-compose.yml
.
2. Uso de un proxy inverso (Nginx/Caddy/Apache)
Se recomienda encarecidamente colocar un proxy inverso delante de LLM Gateway:
- Terminación HTTPS/SSL: el proxy puede manejar certificados SSL (por ejemplo, usando Let's Encrypt con Caddy o Certbot con Nginx/Apache), cifrando el tráfico entre los clientes y el proxy.
- Equilibrio de carga: si necesita ejecutar varias instancias de la puerta de enlace para lograr alta disponibilidad o rendimiento, el proxy puede distribuir el tráfico entre ellas.
- Enrutamiento de ruta: asigna rutas externas (por ejemplo,
https://api.yourdomain.com/llm-gateway/
) al servidor de puerta de enlace interno (http://localhost:8013
). - Encabezados de seguridad: agregue encabezados de seguridad importantes (como CSP, HSTS).
- Almacenamiento en búfer/caché: algunos servidores proxy ofrecen capacidades adicionales de almacenamiento en búfer o caché de solicitudes y respuestas.
Ejemplo de bloque location
de Nginx (simplificado):
3. Orquestación de contenedores (Kubernetes/Swarm)
Si se implementa en un entorno de contenedores:
- Comprobaciones de estado: implemente y configure puntos finales de comprobación de estado (por ejemplo,
/healthz
mencionado anteriormente) en sus manifiestos de implementación para que el orquestador pueda monitorear el estado del servicio. - Configuración: utilice ConfigMaps y Secrets (Kubernetes) o mecanismos equivalentes para administrar las variables de entorno y las claves API de forma segura, en lugar de codificarlas en imágenes o confiar únicamente en archivos
.env
. - Límites de recursos: defina solicitudes y límites de memoria y CPU adecuados para el contenedor de puerta de enlace a fin de garantizar un rendimiento estable y evitar la falta de recursos.
- Descubrimiento de servicios: utilice los mecanismos de descubrimiento de servicios del orquestador en lugar de codificar direcciones IP o nombres de host.
4. Asignación de recursos
- Asegúrese de que la máquina host o el contenedor tengan suficiente RAM , especialmente si se utiliza almacenamiento en caché en memoria o se procesan documentos o solicitudes grandes.
- Supervise el uso de la CPU , especialmente bajo carga pesada o cuando múltiples operaciones complejas se ejecutan simultáneamente.
Ahorro de costes con la delegación
El uso de LLM Gateway para la delegación puede generar importantes ahorros de costos:
Tarea | Claude 3.7 Direct | Delegado a LLM más barato | Ahorros |
---|---|---|---|
Resumen de un documento de 100 páginas | $4.50 | $0.45 (Flash Géminis) | 90% |
Extrayendo datos de 50 registros | $2.25 | $0,35 (GPT-4o-mini) | 84% |
Generando 20 ideas de contenido | $0.90 | $0.12 (Búsqueda profunda) | 87% |
Procesando 1.000 consultas de clientes | $45.00 | $7.50 (Delegación mixta) | 83% |
Estos ahorros se logran manteniendo resultados de alta calidad al permitir que Claude se concentre en el razonamiento y la orquestación de alto nivel mientras delega tareas mecánicas a modelos rentables.
Por qué es importante la delegación de IA a IA
La importancia estratégica de la delegación de IA a IA se extiende más allá del simple ahorro de costos:
Democratizando las capacidades avanzadas de IA
Al permitir que modelos potentes como Claude 3.7, GPT-4o y otros deleguen de manera efectiva, logramos lo siguiente:
- Haga que las capacidades avanzadas de IA sean accesibles a una fracción del costo
- Permitir que las organizaciones con limitaciones presupuestarias aprovechen las capacidades de IA de primer nivel
- Permitir un uso más eficiente de los recursos de IA en toda la industria
Optimización de recursos económicos
La delegación de IA a IA representa una optimización económica fundamental:
- El razonamiento complejo, la creatividad y la comprensión están reservados para los modelos de primer nivel.
- El procesamiento rutinario de datos, la extracción y las tareas más simples pasan a modelos rentables.
- El sistema en general logra un rendimiento cercano al máximo nivel a una fracción del costo.
- Los costos de API se convierten en un gasto controlado en lugar de un pasivo impredecible
Arquitectura de IA sostenible
Este enfoque promueve un uso más sostenible de la IA:
- Reduce el consumo innecesario de recursos computacionales de alta gama
- Crea un enfoque escalonado para la IA que adapta las capacidades a los requisitos.
- Permite trabajos experimentales que serían prohibitivamente costosos solo con modelos de primer nivel
- Crea un enfoque escalable para la integración de IA que puede crecer con las necesidades comerciales.
Camino de evolución técnica
LLM Gateway representa una evolución importante en la arquitectura de aplicaciones de IA:
- Pasar de llamadas de IA monolíticas a flujos de trabajo distribuidos y multimodelo
- Habilitación de la orquestación impulsada por IA de canales de procesamiento complejos
- Creación de una base para sistemas de IA que puedan razonar sobre su propio uso de recursos
- Desarrollar sistemas de IA autooptimizables que tomen decisiones de delegación inteligentes
El futuro de la eficiencia de la IA
LLM Gateway apunta hacia un futuro donde:
- Los sistemas de IA gestionan y optimizan activamente su propio uso de recursos
- Los modelos de mayor capacidad sirven como orquestadores inteligentes para ecosistemas de IA completos
- Los flujos de trabajo de IA se vuelven cada vez más sofisticados y autoorganizados
- Las organizaciones pueden aprovechar todo el espectro de capacidades de IA de formas rentables
Esta visión de sistemas de IA eficientes y autoorganizados representa la próxima frontera en la implementación práctica de IA, yendo más allá del patrón actual de utilizar modelos únicos para cada tarea.
Arquitectura
Cómo funciona la integración de MCP
LLM Gateway está construido de forma nativa sobre el Protocolo de Contexto de Modelo:
- Núcleo del servidor MCP : la puerta de enlace implementa un servidor MCP completo
- Registro de herramientas : todas las capacidades se exponen como herramientas MCP
- Invocación de herramientas : Claude y otros agentes de IA pueden invocar directamente estas herramientas
- Paso de contexto : los resultados se devuelven en el formato estándar de MCP
Esto garantiza una integración perfecta con Claude y otros agentes compatibles con MCP.
Diagrama de componentes
Flujo de solicitud de delegación
Cuando Claude delega una tarea a LLM Gateway:
- Claude envía una solicitud de invocación de la herramienta MCP
- El Gateway recibe la solicitud a través del protocolo MCP
- La herramienta adecuada procesa la solicitud.
- El servicio de almacenamiento en caché comprueba si el resultado ya está almacenado en caché.
- Si no se almacena en caché, el servicio de optimización selecciona el proveedor/modelo adecuado
- La capa de proveedor envía la solicitud a la API LLM seleccionada
- La respuesta se estandariza, se almacena en caché y se registran las métricas.
- El servidor MCP devuelve el resultado a Claude
Documentación detallada de funciones
Integración de proveedores
- Soporte multiproveedor : Soporte de primera clase para:
- OpenAI (GPT-4o-mini, GPT-4o, GPT-4o mini)
- Antrópico (serie Claude 3.7)
- Google (Gemini Pro, Gemini Flash, Gemini Flash Light)
- DeepSeek (Chat de DeepSeek, Razonamiento de DeepSeek)
- Arquitectura extensible para agregar nuevos proveedores
- Gestión de modelos :
- Selección automática de modelos según los requisitos de la tarea
- Seguimiento del rendimiento del modelo
- Mecanismos de respaldo ante interrupciones del proveedor
Optimización de costos
- Enrutamiento inteligente : selecciona automáticamente modelos en función de:
- Requisitos de complejidad de la tarea
- Restricciones presupuestarias
- Prioridades de desempeño
- Datos históricos de rendimiento
- Sistema de almacenamiento en caché avanzado :
- Múltiples estrategias de almacenamiento en caché (exacta, semántica, basada en tareas)
- TTL configurable por tipo de tarea
- Caché persistente con búsqueda rápida en memoria
- Estadísticas de caché y seguimiento de ahorro de costes
Procesamiento de documentos
- Fragmentación inteligente de documentos :
- Múltiples estrategias de fragmentación (basadas en tokens, semánticas, estructurales)
- Configuración de superposición para la preservación del contexto
- Maneja documentos muy grandes de manera eficiente
- Operaciones de documentos :
- Resumen (con formatos configurables)
- Extracción de entidades
- Generación de pares de preguntas y respuestas
- Procesamiento por lotes con control de concurrencia
Extracción de datos
- Extracción de datos estructurados :
- Extracción de JSON con validación de esquema
- Extracción de tablas (formatos JSON, CSV y Markdown)
- Extracción de pares clave-valor
- Inferencia de esquemas semánticos
Torneo y evaluación comparativa
- Concursos de modelos :
- Realizar competiciones entre diferentes modelos y configuraciones.
- Comparar las capacidades de generación de código entre proveedores
- Generar informes de rendimiento estadístico
- Resultados de la competencia en la tienda para análisis histórico
- Extracción de código :
- Extraer código limpio de las respuestas del modelo
- Analizar y validar el código extraído
- Soporte para múltiples lenguajes de programación
Operaciones vectoriales
- Servicio de incrustación :
- Generación eficiente de incrustaciones de texto
- Incorporación de almacenamiento en caché para reducir los costos de API
- Procesamiento por lotes para mejorar el rendimiento
- Búsqueda semántica :
- Encuentra contenido semánticamente similar
- Umbrales de similitud configurables
- Operaciones vectoriales rápidas
- Búsqueda avanzada fusionada (Marqo) :
- Aprovecha Marqo para la búsqueda combinada de palabras clave y semántica
- Ponderación ajustable entre relevancia de palabras clave y vector
- Admite filtrado y facetado complejos
Generación aumentada por recuperación (RAG)
- Generación contextual :
- Aumenta las indicaciones de LLM con información recuperada relevante
- Mejora la precisión de los hechos y reduce las alucinaciones.
- Se integra con la búsqueda de vectores y almacenes de documentos.
- Integración del flujo de trabajo :
- Combine sin problemas la recuperación de documentos con las tareas de generación
- Estrategias de recuperación y generación personalizables
Procesamiento de texto local
- Operaciones fuera de línea :
- Proporciona herramientas para la manipulación de texto que se ejecutan localmente, sin llamadas API
- Incluye funciones de limpieza, formato y análisis básico.
- Útil para preprocesar texto antes de enviarlo a LLM o para posprocesar resultados.
Metaoperaciones
- Introspección y gestión :
- Herramientas para consultar las capacidades y el estado del servidor
- Puede incluir funciones para administrar configuraciones o ajustes de herramientas de forma dinámica.
- Facilita interacciones más complejas entre agentes y la autogestión.
Características del sistema
- Registro enriquecido :
- Hermosa salida de consola con Rich
- Indicadores emoji para diferentes operaciones
- Información de contexto detallada
- Métricas de rendimiento en las entradas de registro
- Soporte de transmisión :
- Interfaz de transmisión consistente entre todos los proveedores
- Entrega token por token
- Seguimiento de costes durante la transmisión
- Monitoreo de la salud :
- Comprobaciones del estado del punto final (/healthz)
- Monitoreo del uso de recursos
- Seguimiento de la disponibilidad del proveedor
- Estadísticas de tasa de error
- Interfaz de línea de comandos :
- CLI interactiva enriquecida para la gestión del servidor
- Invocación directa de herramientas desde la línea de comandos
- Gestión de la configuración
- Inspección del estado de la caché y del servidor
Ejemplos de uso de herramientas
Esta sección proporciona ejemplos de cómo un cliente MCP (como Claude 3.7) invocaría herramientas específicas proporcionadas por la puerta de enlace LLM. Estos ejemplos asumen que tiene una instancia inicializada mcp.client.Client
llamada client
conectada a la puerta de enlace.
Finalización básica
Para obtener una finalización de texto simple de un proveedor elegido:
Resumen del documento
Para resumir un fragmento de texto, delegando potencialmente a un modelo rentable:
Extracción de entidades
Para extraer tipos específicos de entidades del texto:
Ejecución de un flujo de trabajo optimizado
Para ejecutar un flujo de trabajo de varios pasos donde la puerta de enlace optimiza la selección de modelos para cada paso:
Listado de herramientas disponibles (Metaherramienta)
Para descubrir dinámicamente las herramientas actualmente registradas y disponibles en la puerta de enlace:
Casos de uso del mundo real
Orquestación de agentes de IA
Claude u otros agentes de IA avanzados pueden usar LLM Gateway para:
- Delegar tareas rutinarias a modelos más económicos
- Procesar documentos grandes en paralelo
- Extraer datos estructurados de texto no estructurado
- Generar borradores para revisión y mejora
Procesamiento de documentos empresariales
Procese grandes colecciones de documentos de manera eficiente:
- Divida los documentos en fragmentos significativos
- Distribuir el procesamiento entre modelos óptimos
- Extraer datos estructurados a escala
- Implementar la búsqueda semántica en todos los documentos
Investigación y análisis
Los equipos de investigación pueden utilizar LLM Gateway para:
- Comparar resultados de diferentes modelos
- Procesar artículos de investigación de manera eficiente
- Extraer información estructurada de los estudios
- Realice un seguimiento del uso de tokens y optimice los presupuestos de investigación
Evaluación comparativa y selección de modelos
Las organizaciones pueden utilizar las funciones del torneo para:
- Realizar competiciones controladas entre diferentes modelos
- Generar métricas de rendimiento cuantitativas
- Tome decisiones basadas en datos sobre la selección de modelos
- Cree marcos de evaluación de modelos personalizados
Consideraciones de seguridad
Al implementar y operar LLM Gateway, tenga en cuenta los siguientes aspectos de seguridad:
- Gestión de claves API:
- Nunca codifique claves API en su código fuente.
- Utilice variables de entorno (archivo
.env
para desarrollo local, variables de entorno del sistema o herramientas de gestión de secretos como HashiCorp Vault, AWS Secrets Manager, GCP Secret Manager para producción). - Asegúrese de que el archivo
.env
(si se utiliza) tenga permisos de archivo estrictos (legibles solo por el usuario que ejecuta la puerta de enlace). - Rote las claves periódicamente y revoque inmediatamente cualquier clave sospechosa de estar comprometida.
- Exposición a la red y control de acceso:
- De forma predeterminada, el servidor se vincula a
127.0.0.1
y solo permite conexiones locales. CambieSERVER_HOST
a0.0.0.0
únicamente si pretende exponerlo externamente y asegúrese de que existan los controles adecuados. - Utilice un proxy inverso (Nginx, Caddy, etc.) para gestionar las conexiones entrantes. Esto le permite gestionar el cifrado TLS/SSL, aplicar controles de acceso (p. ej., lista de direcciones IP permitidas) y, potencialmente, añadir autenticación a nivel de puerta de enlace.
- Utilice reglas de firewall en la máquina host o la red para restringir el acceso a
SERVER_PORT
solo desde fuentes confiables (como el proxy inverso o clientes internos específicos).
- De forma predeterminada, el servidor se vincula a
- Autenticación y autorización:
- Es posible que la puerta de enlace no cuente con autenticación de usuarios integrada. El control de acceso suele depender de la seguridad de la red (cortafuegos, VPN) y, potencialmente, de la autenticación gestionada por un proxy inverso (p. ej., autenticación básica o proxy OAuth2).
- Asegúrese de que solo los clientes autorizados (como sus aplicaciones o agentes de IA de confianza) puedan llegar al punto final de la puerta de enlace.
- Limitación de velocidad y prevención de abusos:
- Implemente la limitación de velocidad a nivel de proxy inverso o utilice middleware dedicado para evitar ataques de denegación de servicio o uso excesivo de API (lo que puede generar altos costos).
- Validación de entrada:
- Aunque las entradas de LLM suelen ser texto, tenga cuidado si alguna herramienta las interpreta de forma que puedan generar vulnerabilidades (por ejemplo, si una herramienta ejecuta código basándose en la entrada). Corrija o valide las entradas cuando corresponda para la función específica de la herramienta.
- Seguridad de dependencia:
- Actualice periódicamente las dependencias (
uv pip install --upgrade ...
o similar) para corregir vulnerabilidades conocidas en bibliotecas de terceros. - Considere utilizar herramientas de escaneo de seguridad (como
pip-audit
o alertas de GitHub Dependabot) para identificar dependencias vulnerables.
- Actualice periódicamente las dependencias (
- Explotación florestal:
- Tenga en cuenta que el registro de nivel
DEBUG
podría registrar solicitudes y respuestas completas, que podrían incluir información confidencial. ConfigureLOG_LEVEL
según su entorno y asegúrese de que los archivos de registro tengan los permisos adecuados.
- Tenga en cuenta que el registro de nivel
Licencia
Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.
Expresiones de gratitud
- Protocolo de contexto del modelo para la base de la API
- Rico para una hermosa salida de terminal
- Pydantic para la validación de datos
- uv para una gestión rápida y fiable de paquetes de Python
- Todos los proveedores de LLM que ponen a disposición sus modelos a través de API
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Un servidor nativo de MCP que permite la delegación inteligente de tareas de agentes de IA avanzados como Claude a LLM más rentables, optimizando los costos y manteniendo la calidad de salida.
- What is LLM Gateway?
- Why Use LLM Gateway?
- Key Features
- Autonomous Tool Documentation Refiner
- OCR Tools
- Usage Examples
- Claude Using LLM Gateway for Document Analysis
- Multi-Provider Comparison for Decision Making
- Cost-Optimized Workflow
- Document Chunking
- Multi-Provider Completion
- Structured Data Extraction (JSON)
- Retrieval-Augmented Generation (RAG) Query
- Fused Search (Keyword + Semantic)
- Local Text Processing
- Browser Automation Example: Getting Started and Basic Interaction
- Autonomous Documentation Refiner
- Getting Started
- CLI Commands
- Advanced Configuration
- Deployment Considerations
- Cost Savings With Delegation
- Why AI-to-AI Delegation Matters
- Architecture
- Detailed Feature Documentation
- Tool Usage Examples
- Real-World Use Cases
- Security Considerations
- License
- Acknowledgements
Related MCP Servers
- -securityFlicense-qualityAn MCP server that allows AI assistants like Claude to execute terminal commands on the user's computer and return the output, functioning like a terminal through AI.Last updated -7Python
- -securityAlicense-qualityAn MCP server that enables AI assistants to control a web browser through natural language commands, allowing them to navigate websites and extract information via SSE transport.Last updated -387PythonMIT License
- -securityAlicense-qualityAn MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.Last updated -PythonMIT License
- AsecurityAlicenseAqualityAn MCP server that supercharges AI assistants with powerful tools for software development, enabling research, planning, code generation, and project scaffolding through natural language interaction.Last updated -116TypeScriptMIT License