Integrations
Enables configuration of connection parameters through environment variables for connecting to MongoDB.
Allows users to clone the SwanzMCP repository for installation and setup.
Provides tools for documenting LLM safety challenges, including creating and querying models, threads, and messages to track safety issues and jailbreak attempts.
Servidor MCP del Desafío de Seguridad LLM de Grey Swan
Este servidor MCP integrado con MongoDB está diseñado para documentar y analizar los desafíos de seguridad de LLM como parte de las competencias Grey Swan Arena.
Introducción
El Grey Swan Arena alberga diversos desafíos de seguridad de IA donde los participantes intentan identificar vulnerabilidades en los sistemas de IA. Este servidor MCP proporciona herramientas para documentar estos intentos, rastrear los desafíos de seguridad y analizar interacciones potencialmente dañinas con los LLM.
Empezando
Prerrequisitos
- Node.js (v14 o superior)
- MongoDB (v4.4 o superior)
- IDE de cursor
Instalación
- Clonar este repositorio:Copy
- Instalar dependencias:Copy
- Cree un archivo
.env
en el directorio raíz:Copy - Construir el servidor:Copy
- Iniciar MongoDB:Copy
- Inicie el servidor MCP:Copy
Configuración del servidor MCP en Cursor
- Cursor abierto
- Vaya a Configuración del cursor > Funciones > MCP
- Haga clic en '+ Agregar nuevo servidor MCP'
- Rellene el formulario:
- Nombre: Desafío de seguridad de Grey Swan LLM
- Tipo: stdio
- Comando:
node /path/to/SwanzMCP/build/index.js
- Haga clic en "Agregar servidor"
Herramientas MongoDB disponibles
Este servidor MCP proporciona seis herramientas MongoDB para documentar los desafíos de seguridad de LLM:
1. modelo mongo
Crea o actualiza identificadores organizacionales para sus sesiones de prueba.
2. mongo_thread
Crea o actualiza hilos de conversación con desafíos de seguridad.
3. mensaje_mongo
Crea o actualiza mensajes en hilos, incluidas las banderas de seguridad.
4. modelos de consulta mongo
Consulta identificadores organizacionales de la base de datos.
5. subprocesos de consulta mongo
Consulta hilos de la base de datos con varios filtros.
6. mensajes de consulta mongo
Consulta mensajes de la base de datos.
Flujo de trabajo para los desafíos de Grey Swan Arena
1. Preparándose para un desafío
- Cree un identificador organizacional usando
mongo_model
con un nombre único para su sesión de prueba - Crea un hilo usando
mongo_thread
con metadatos relevantes y desafíos iniciales
2. Documentar los intentos de fuga de la cárcel
Por cada intento de jailbreak:
- Agregue el mensaje de usuario con
mongo_message
, incluidas las banderas de seguridad - Agregue la respuesta del modelo con
mongo_message
- Actualice el hilo con
mongo_thread
para agregar nuevos desafíos descubiertos
3. Análisis de resultados
- Utilice
mongo_query_threads
para encontrar hilos con categorías de desafío específicas - Utilice
mongo_query_messages
consafetyFlagsOnly: true
para analizar los mensajes marcados - Compare diferentes técnicas de jailbreak consultando hilos con diferentes etiquetas
Ejemplo: Documentar un ataque de inyección rápida
Estructura del proyecto
Mejores prácticas
- Etiquetado consistente : use etiquetas consistentes en todos los hilos para permitir un filtrado efectivo
- Desafíos detallados : documente los desafíos con detalles específicos sobre la técnica utilizada
- Niveles de gravedad : utilice niveles de gravedad (bajo, medio, alto) de manera consistente
- Seguimiento del estado : actualice el estado del desafío a medida que trabaja (identificado, mitigado, sin resolver)
- Banderas de seguridad : marque todos los mensajes potencialmente dañinos para crear un conjunto de datos completo
Contribuyendo
¡Agradecemos sus contribuciones! No dude en enviar una solicitud de incorporación de cambios.
Licencia
Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.
Expresiones de gratitud
- Basado en el proyecto awesome-cursor-mpc-server
- Creado para los desafíos de seguridad de la IA de Grey Swan Arena
This server cannot be installed
Servidor MCP integrado en MongoDB para documentar y analizar los desafíos de seguridad de LLM en las competencias de Grey Swan Arena.