灰天鹅法学硕士安全挑战 MCP 服务器
此 MongoDB 集成 MCP 服务器旨在记录和分析灰天鹅竞技场比赛中的 LLM 安全挑战。
介绍
灰天鹅竞技场 (Grey Swan Arena) 举办各种人工智能安全挑战赛,参赛者需要尝试识别人工智能系统中的漏洞。MCP 服务器提供工具来记录这些尝试、跟踪安全挑战,并分析与 LLM 的潜在有害交互。
Related MCP server: MongoDB
入门
先决条件
Node.js(v14 或更高版本)
MongoDB(v4.4 或更高版本)
游标 IDE
安装
克隆此存储库:
git clone https://github.com/GravityPhone/SwanzMCP.git cd SwanzMCP安装依赖项:
npm install在根目录中创建一个
.env文件:MONGODB_URI=mongodb://localhost:27017/greyswan PORT=3000构建服务器:
npm run build启动 MongoDB:
sudo systemctl start mongod启动 MCP 服务器:
node build/index.js
在 Cursor 中设置 MCP 服务器
打开游标
前往“光标设置”>“功能”>“MCP”
点击“+ 添加新的 MCP 服务器”
填写表格:
名称:灰天鹅法学硕士安全挑战赛
类型:stdio
命令:
node /path/to/SwanzMCP/build/index.js
点击“添加服务器”
可用的 MongoDB 工具
该 MCP 服务器提供了六种 MongoDB 工具用于记录 LLM 安全挑战:
1. mongo_model
为您的测试会话创建或更新组织标识符。
2. mongo_thread
创建或更新涉及安全挑战的对话线程。
3. mongo_message
创建或更新线程中的消息,包括安全标志。
4. mongo_query_models
从数据库中查询组织标识符。
5. mongo_query_threads
使用各种过滤器从数据库查询线程。
6. mongo_query_messages
从数据库查询消息。
灰天鹅竞技场挑战赛的工作流程
1. 准备迎接挑战
使用
mongo_model为您的测试会话创建一个具有唯一名称的组织标识符使用
mongo_thread创建带有相关元数据和初始挑战的线程
2. 记录越狱尝试
对于每次越狱尝试:
使用
mongo_message添加用户消息,包括安全标志使用
mongo_message添加模型的响应使用
mongo_thread更新线程以添加发现的新挑战
3.分析结果
使用
mongo_query_threads查找具有特定挑战类别的线程使用
mongo_query_messages和safetyFlagsOnly: true来分析标记的消息通过查询带有不同标签的线程来比较不同的越狱技术
示例:记录即时注入攻击
项目结构
最佳实践
一致的标记:在线程中使用一致的标记以实现有效的过滤
详细挑战:记录挑战,并详细说明所用技术
严重程度等级:始终使用严重程度等级(低、中、高)
状态跟踪:在工作时更新挑战状态(已识别、已缓解、未解决)
安全标志:标记所有潜在有害信息以构建全面的数据集
贡献
欢迎贡献代码!欢迎提交 Pull 请求。
执照
该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅 LICENSE 文件。
致谢
专为灰天鹅竞技场人工智能安全挑战赛打造