グレイスワンLLM安全チャレンジMCPサーバー
この MongoDB 統合 MCP サーバーは、Grey Swan Arena 競技の一環として LLM 安全性課題を文書化および分析するために設計されています。
導入
グレイ・スワン・アリーナでは、AIシステムの脆弱性を特定する様々なAI安全性チャレンジが開催されています。このMCPサーバーは、これらのチャレンジを記録し、安全性に関する課題を追跡し、LLMとの潜在的に有害な相互作用を分析するためのツールを提供しています。
はじめる
前提条件
- Node.js (v14以上)
- MongoDB (v4.4 以上)
- カーソルIDE
インストール
- このリポジトリをクローンします:
- 依存関係をインストールします:
- ルート ディレクトリに
.env
ファイルを作成します。 - サーバーを構築します。
- MongoDB を起動します。
- MCP サーバーを起動します。
カーソルでMCPサーバーを設定する
- オープンカーソル
- カーソル設定 > 機能 > MCP に移動します
- 「+新しいMCPサーバーを追加」をクリックします
- フォームに記入してください:
- 名称: グレイスワンLLM安全チャレンジ
- タイプ: stdio
- コマンド:
node /path/to/SwanzMCP/build/index.js
- 「サーバーを追加」をクリックします
利用可能なMongoDBツール
この MCP サーバーは、LLM の安全性の課題を文書化するための 6 つの MongoDB ツールを提供します。
1. mongo_model
テスト セッションの組織識別子を作成または更新します。
2. mongo_thread
安全性に関する課題を盛り込んだ会話スレッドを作成または更新します。
3. mongo_message
安全フラグを含むスレッド内のメッセージを作成または更新します。
4. mongo_query_models
データベースから組織識別子を照会します。
5. mongo_query_threads
さまざまなフィルターを使用してデータベースからスレッドを照会します。
6. mongo_query_messages
データベースからメッセージを照会します。
グレイスワンアリーナチャレンジのワークフロー
1. 挑戦への準備
mongo_model
を使用して、テストセッションに固有の名前を持つ組織識別子を作成します。mongo_thread
を使用して、関連するメタデータと初期チャレンジを含むスレッドを作成します。
2. 脱獄の試みを記録する
脱獄の試みごとに:
mongo_message
を使用して、安全フラグを含むユーザーメッセージを追加します。mongo_message
でモデルのレスポンスを追加する- 発見された新しい課題を追加するには、
mongo_thread
でスレッドを更新します。
3. 結果の分析
mongo_query_threads
を使用して、特定のチャレンジ カテゴリのスレッドを検索します。- フラグが付けられたメッセージを分析するには
safetyFlagsOnly: true
指定したmongo_query_messages
を使用します。 - 異なるタグのスレッドを照会して、さまざまな脱獄テクニックを比較します
例: プロンプトインジェクション攻撃の文書化
プロジェクト構造
ベストプラクティス
- 一貫したタグ付け: スレッド間で一貫したタグを使用して、効果的なフィルタリングを実現します。
- 詳細な課題: 使用された技術に関する具体的な詳細を記載した課題を文書化します。
- 重大度レベル: 重大度レベル(低、中、高)を一貫して使用する
- ステータス追跡: 作業中に課題のステータスを更新します (特定済み、軽減済み、未解決)
- 安全フラグ: 潜在的に有害なメッセージすべてにフラグを付けて、包括的なデータセットを構築します。
貢献
貢献を歓迎します!お気軽にプルリクエストを送信してください。
ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。
謝辞
- awesome-cursor-mpc-serverプロジェクトをベースにした
- グレイスワンアリーナのAI安全チャレンジのために作成されました
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Grey Swan Arena 競技における LLM 安全性の課題を文書化および分析するための MongoDB 統合 MCP サーバー。
Related MCP Servers
- -securityAlicense-qualityA Model Context Protocol (MCP) server that enables LLMs to interact directly with MongoDB databases. Query collections, inspect schemas, and manage data seamlessly through natural language.Last updated -34075TypeScriptMIT License
- -securityFlicense-qualityA protocol server that enables LLMs like Claude to interact with MongoDB databases, providing tools for schema exploration, aggregation queries, and data analysis through natural language in Cursor.Last updated -115TypeScript
- -securityAlicense-qualityFull featured MCP Server for MongoDB database analysis.Last updated -334108JavaScriptMIT License
- -securityAlicense-qualityAn MCP server that enables users to create and manage MongoDB Atlas clusters, users, and network access through natural language commands.Last updated -7410JavaScriptMIT License