グレイスワンLLM安全チャレンジMCPサーバー
この MongoDB 統合 MCP サーバーは、Grey Swan Arena 競技の一環として LLM 安全性課題を文書化および分析するために設計されています。
導入
グレイ・スワン・アリーナでは、AIシステムの脆弱性を特定する様々なAI安全性チャレンジが開催されています。このMCPサーバーは、これらのチャレンジを記録し、安全性に関する課題を追跡し、LLMとの潜在的に有害な相互作用を分析するためのツールを提供しています。
Related MCP server: MongoDB
はじめる
前提条件
Node.js (v14以上)
MongoDB (v4.4 以上)
カーソルIDE
インストール
このリポジトリをクローンします:
git clone https://github.com/GravityPhone/SwanzMCP.git cd SwanzMCP依存関係をインストールします:
npm installルート ディレクトリに
.envファイルを作成します。MONGODB_URI=mongodb://localhost:27017/greyswan PORT=3000サーバーを構築します。
npm run buildMongoDB を起動します。
sudo systemctl start mongodMCP サーバーを起動します。
node build/index.js
カーソルでMCPサーバーを設定する
オープンカーソル
カーソル設定 > 機能 > MCP に移動します
「+新しいMCPサーバーを追加」をクリックします
フォームに記入してください:
名称: グレイスワンLLM安全チャレンジ
タイプ: stdio
コマンド:
node /path/to/SwanzMCP/build/index.js
「サーバーを追加」をクリックします
利用可能なMongoDBツール
この MCP サーバーは、LLM の安全性の課題を文書化するための 6 つの MongoDB ツールを提供します。
1. mongo_model
テスト セッションの組織識別子を作成または更新します。
2. mongo_thread
安全性に関する課題を盛り込んだ会話スレッドを作成または更新します。
3. mongo_message
安全フラグを含むスレッド内のメッセージを作成または更新します。
4. mongo_query_models
データベースから組織識別子を照会します。
5. mongo_query_threads
さまざまなフィルターを使用してデータベースからスレッドを照会します。
6. mongo_query_messages
データベースからメッセージを照会します。
グレイスワンアリーナチャレンジのワークフロー
1. 挑戦への準備
mongo_modelを使用して、テストセッションに固有の名前を持つ組織識別子を作成します。mongo_threadを使用して、関連するメタデータと初期チャレンジを含むスレッドを作成します。
2. 脱獄の試みを記録する
脱獄の試みごとに:
mongo_messageを使用して、安全フラグを含むユーザーメッセージを追加します。mongo_messageでモデルのレスポンスを追加する発見された新しい課題を追加するには、
mongo_threadでスレッドを更新します。
3. 結果の分析
mongo_query_threadsを使用して、特定のチャレンジ カテゴリのスレッドを検索します。フラグが付けられたメッセージを分析するには
safetyFlagsOnly: true指定したmongo_query_messagesを使用します。異なるタグのスレッドを照会して、さまざまな脱獄テクニックを比較します
例: プロンプトインジェクション攻撃の文書化
プロジェクト構造
ベストプラクティス
一貫したタグ付け: スレッド間で一貫したタグを使用して、効果的なフィルタリングを実現します。
詳細な課題: 使用された技術に関する具体的な詳細を記載した課題を文書化します。
重大度レベル: 重大度レベル(低、中、高)を一貫して使用する
ステータス追跡: 作業中に課題のステータスを更新します (特定済み、軽減済み、未解決)
安全フラグ: 潜在的に有害なメッセージすべてにフラグを付けて、包括的なデータセットを構築します。
貢献
貢献を歓迎します!お気軽にプルリクエストを送信してください。
ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。
謝辞
awesome-cursor-mpc-serverプロジェクトをベースにした
グレイスワンアリーナのAI安全チャレンジのために作成されました