Code-Index-MCP

comprehensive_enhanced_mcp_test.py•29.6 KiB

#!/usr/bin/env python3 """ Comprehensive Enhanced MCP vs Native Test Framework Orchestrates full testing with granular method tracking, token analysis, and edit behavior correlation. """ import json import time import os import subprocess import asyncio from pathlib import Path from typing import Dict, List, Any, Optional, Tuple from datetime import datetime from dataclasses import dataclass, asdict import logging import tempfile import shutil import uuid # Add project root to path import sys sys.path.insert(0, str(Path(__file__).parent.parent)) from enhanced_mcp_analysis_framework import EnhancedMCPAnalyzer, EnhancedQueryMetrics, RetrievalMethod, EditType from mcp_method_detector import MCPServerMonitor, MCPMethodValidator from edit_pattern_analyzer import EditPatternAnalyzer, EditOperation, RetrievalEditCorrelation # Configure logging logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s') logger = logging.getLogger(__name__) @dataclass class TestScenario: """Enhanced test scenario with method-specific expectations""" scenario_id: str name: str description: str queries: List[str] expected_retrieval_method: Optional[RetrievalMethod] = None expected_edit_type: Optional[EditType] = None complexity_level: str = "medium" # low, medium, high requires_context: bool = True expected_files_modified: int = 1 @dataclass class TestSession: """Complete test session tracking""" session_id: str start_time: datetime end_time: Optional[datetime] = None # Test configuration scenarios_tested: List[str] = None mcp_enabled: bool = True # Analysis results query_metrics: List[EnhancedQueryMetrics] = None edit_operations: List[EditOperation] = None retrieval_correlations: List[RetrievalEditCorrelation] = None # Performance summary total_tokens_used: int = 0 total_response_time_ms: float = 0.0 success_rate: float = 0.0 def __post_init__(self): if self.scenarios_tested is None: self.scenarios_tested = [] if self.query_metrics is None: self.query_metrics = [] if self.edit_operations is None: self.edit_operations = [] if self.retrieval_correlations is None: self.retrieval_correlations = [] class ComprehensiveEnhancedMCPTest: """Orchestrates comprehensive testing with all analysis components""" def __init__(self, workspace_path: Path): self.workspace_path = workspace_path self.session_id = f"enhanced_test_{int(time.time())}" # Initialize all analysis components self.mcp_analyzer = EnhancedMCPAnalyzer(workspace_path, self.session_id) self.method_monitor = MCPServerMonitor(workspace_path) self.method_validator = MCPMethodValidator(workspace_path) self.edit_analyzer = EditPatternAnalyzer(workspace_path) # Test sessions tracking self.mcp_session: Optional[TestSession] = None self.native_session: Optional[TestSession] = None # Results directory self.results_dir = Path(f"enhanced_mcp_analysis_{self.session_id}") self.results_dir.mkdir(exist_ok=True) logger.info(f"Initialized comprehensive test framework for session {self.session_id}") logger.info(f"Results will be saved to: {self.results_dir}") def create_test_scenarios(self) -> List[TestScenario]: """Create comprehensive test scenarios covering different patterns""" scenarios = [ TestScenario( scenario_id="symbol_search_complex", name="Complex Symbol Search", description="Find and navigate to complex class hierarchies", queries=[ "Find the EnhancedDispatcher class definition and show its inheritance hierarchy", "Show me all methods in EnhancedDispatcher that override parent methods", "Add a new abstract method 'validate_query' to the base dispatcher class" ], expected_retrieval_method=RetrievalMethod.SQL_FTS, expected_edit_type=EditType.TARGETED_EDIT, complexity_level="high", requires_context=True, expected_files_modified=2 ), TestScenario( scenario_id="semantic_natural_language", name="Semantic Natural Language Query", description="Use natural language to understand code patterns", queries=[ "How does error handling work in the indexing pipeline?", "Show me examples of async/await patterns in this codebase", "Add better error handling to the semantic indexer with proper logging" ], expected_retrieval_method=RetrievalMethod.SEMANTIC, expected_edit_type=EditType.MULTI_EDIT, complexity_level="high", requires_context=True, expected_files_modified=3 ), TestScenario( scenario_id="simple_parameter_addition", name="Simple Parameter Addition", description="Add parameters to existing functions", queries=[ "Find the search method in EnhancedDispatcher", "Add a timeout parameter with default value 30 to this method", "Update the method's docstring to document the new parameter" ], expected_retrieval_method=RetrievalMethod.SQL_FTS, expected_edit_type=EditType.TARGETED_EDIT, complexity_level="low", requires_context=True, expected_files_modified=1 ), TestScenario( scenario_id="cross_file_refactoring", name="Cross-File Refactoring", description="Rename and update across multiple files", queries=[ "Find all uses of 'index_file' method in the codebase", "Rename 'index_file' to 'process_file' everywhere", "Update all import statements and references" ], expected_retrieval_method=RetrievalMethod.HYBRID, expected_edit_type=EditType.MULTI_EDIT, complexity_level="high", requires_context=False, expected_files_modified=5 ), TestScenario( scenario_id="documentation_search", name="Documentation Search and Update", description="Find and update documentation", queries=[ "Find the README file and API documentation sections", "Add examples for the search_code MCP tool", "Include performance benchmarks in the documentation" ], expected_retrieval_method=RetrievalMethod.SQL_BM25, expected_edit_type=EditType.APPEND_ONLY, complexity_level="medium", requires_context=True, expected_files_modified=2 ), TestScenario( scenario_id="configuration_modification", name="Configuration File Modification", description="Modify configuration and settings files", queries=[ "Find the MCP server configuration files", "Add a new environment variable for cache timeout", "Update default settings to use the new variable" ], expected_retrieval_method=RetrievalMethod.NATIVE_GREP, expected_edit_type=EditType.TARGETED_EDIT, complexity_level="medium", requires_context=True, expected_files_modified=3 ) ] return scenarios async def run_scenario_with_mcp(self, scenario: TestScenario) -> TestSession: """Run a test scenario with MCP-enabled Claude Code""" logger.info(f"Running MCP scenario: {scenario.name}") session = TestSession( session_id=f"{self.session_id}_mcp_{scenario.scenario_id}", start_time=datetime.now(), mcp_enabled=True, scenarios_tested=[scenario.scenario_id] ) # Start method monitoring self.method_monitor.start_monitoring(session.session_id) # Capture initial file snapshots for edit analysis self._capture_file_snapshots() try: for i, query in enumerate(scenario.queries): query_id = f"{scenario.scenario_id}_mcp_q{i+1}" logger.info(f"Executing MCP query {i+1}: {query[:50]}...") # Execute query with enhanced tracking transcript_content = await self._execute_claude_query_mcp(query, scenario) # Parse transcript for comprehensive metrics query_metrics = self.mcp_analyzer.parse_enhanced_transcript( transcript_content, query, "mcp" ) session.query_metrics.append(query_metrics) # Detect and analyze any edits if query_metrics.success: edit_operations = await self._analyze_post_query_edits( transcript_content, query_metrics.retrieval_metrics ) session.edit_operations.extend(edit_operations) # Small delay between queries await asyncio.sleep(1.0) except Exception as e: logger.error(f"Error in MCP scenario {scenario.name}: {e}") finally: # Stop monitoring self.method_monitor.stop_monitoring() session.end_time = datetime.now() # Calculate session summary self._calculate_session_summary(session) return session async def run_scenario_with_native(self, scenario: TestScenario) -> TestSession: """Run a test scenario with native-only Claude Code""" logger.info(f"Running Native scenario: {scenario.name}") session = TestSession( session_id=f"{self.session_id}_native_{scenario.scenario_id}", start_time=datetime.now(), mcp_enabled=False, scenarios_tested=[scenario.scenario_id] ) # Capture initial file snapshots self._capture_file_snapshots() try: for i, query in enumerate(scenario.queries): query_id = f"{scenario.scenario_id}_native_q{i+1}" logger.info(f"Executing Native query {i+1}: {query[:50]}...") # Execute query with native tools only transcript_content = await self._execute_claude_query_native(query, scenario) # Parse transcript for metrics query_metrics = self.mcp_analyzer.parse_enhanced_transcript( transcript_content, query, "native" ) session.query_metrics.append(query_metrics) # Analyze edits if query_metrics.success: edit_operations = await self._analyze_post_query_edits( transcript_content, query_metrics.retrieval_metrics ) session.edit_operations.extend(edit_operations) await asyncio.sleep(1.0) except Exception as e: logger.error(f"Error in Native scenario {scenario.name}: {e}") finally: session.end_time = datetime.now() self._calculate_session_summary(session) return session async def _execute_claude_query_mcp(self, query: str, scenario: TestScenario) -> str: """Execute a query using MCP-enabled Claude Code""" # Use MCP-enabled worktree mcp_worktree = self.workspace_path / "testing-env" / "worktree-mcp" cmd = [ "claude", "--", query ] env = { **os.environ, "CLAUDE_PROJECT_DIR": str(mcp_worktree), "MCP_ENABLED": "true" } try: result = subprocess.run( cmd, cwd=mcp_worktree, capture_output=True, text=True, timeout=120, env=env ) transcript = result.stdout + result.stderr return transcript except subprocess.TimeoutExpired: logger.warning(f"MCP query timed out: {query[:50]}") return "TIMEOUT_ERROR" except Exception as e: logger.error(f"MCP query failed: {e}") return f"ERROR: {str(e)}" async def _execute_claude_query_native(self, query: str, scenario: TestScenario) -> str: """Execute a query using native-only Claude Code""" # Use native-only worktree native_worktree = self.workspace_path / "testing-env" / "worktree-native" cmd = [ "claude", "--", query ] env = { **os.environ, "CLAUDE_PROJECT_DIR": str(native_worktree), "MCP_ENABLED": "false" } try: result = subprocess.run( cmd, cwd=native_worktree, capture_output=True, text=True, timeout=120, env=env ) transcript = result.stdout + result.stderr return transcript except subprocess.TimeoutExpired: logger.warning(f"Native query timed out: {query[:50]}") return "TIMEOUT_ERROR" except Exception as e: logger.error(f"Native query failed: {e}") return f"ERROR: {str(e)}" def _capture_file_snapshots(self): """Capture snapshots of key files for edit analysis""" key_files = [ "mcp_server/dispatcher/dispatcher_enhanced.py", "mcp_server/indexer/semantic_indexer.py", "README.md", ".mcp.json", "scripts/cli/mcp_server_cli.py" ] for file_path in key_files: full_path = self.workspace_path / file_path if full_path.exists(): self.edit_analyzer.capture_file_snapshot(str(full_path)) async def _analyze_post_query_edits(self, transcript_content: str, retrieval_metrics) -> List[EditOperation]: """Analyze edits made after a query""" edit_operations = [] # Look for file modifications in transcript import re file_modifications = re.findall(r'(?:Edit|MultiEdit|Write)\([^)]*file_path=["\']([^"\']+)', transcript_content) for file_path in set(file_modifications): edit_op = self.edit_analyzer.detect_edit_from_transcript( transcript_content, file_path, retrieval_metrics ) if edit_op: edit_operations.append(edit_op) # Analyze context usage context_pattern = self.edit_analyzer.analyze_context_usage( transcript_content, edit_op ) # Create correlation correlation = self.edit_analyzer.correlate_retrieval_with_edit( retrieval_metrics, edit_op, context_pattern, 0.0 # Would calculate actual time ) self.edit_analyzer.retrieval_correlations.append(correlation) return edit_operations def _calculate_session_summary(self, session: TestSession): """Calculate summary statistics for a test session""" if not session.query_metrics: return # Token usage session.total_tokens_used = sum( m.token_breakdown.total_input_tokens + m.token_breakdown.total_output_tokens for m in session.query_metrics ) # Response time session.total_response_time_ms = sum(m.response_time_ms for m in session.query_metrics) # Success rate successful_queries = sum(1 for m in session.query_metrics if m.success) session.success_rate = successful_queries / len(session.query_metrics) if session.query_metrics else 0.0 async def run_comprehensive_comparison(self) -> Dict[str, Any]: """Run comprehensive MCP vs Native comparison""" logger.info("Starting comprehensive enhanced MCP vs Native comparison") scenarios = self.create_test_scenarios() comparison_results = { "session_id": self.session_id, "start_time": datetime.now().isoformat(), "scenarios": {}, "mcp_session_summaries": [], "native_session_summaries": [], "comparative_analysis": {} } # Run each scenario with both MCP and Native for scenario in scenarios: logger.info(f"\nTesting scenario: {scenario.name}") logger.info("=" * 60) scenario_results = { "scenario": asdict(scenario), "mcp_session": None, "native_session": None, "comparison": {} } try: # Run with MCP logger.info("1. Running with MCP...") mcp_session = await self.run_scenario_with_mcp(scenario) scenario_results["mcp_session"] = asdict(mcp_session) comparison_results["mcp_session_summaries"].append(asdict(mcp_session)) # Short pause between tests await asyncio.sleep(2.0) # Run with Native logger.info("2. Running with Native...") native_session = await self.run_scenario_with_native(scenario) scenario_results["native_session"] = asdict(native_session) comparison_results["native_session_summaries"].append(asdict(native_session)) # Compare results scenario_comparison = self._compare_sessions(mcp_session, native_session, scenario) scenario_results["comparison"] = scenario_comparison logger.info(f"3. Scenario completed:") logger.info(f" MCP: {mcp_session.success_rate:.1%} success, {mcp_session.total_tokens_used} tokens") logger.info(f" Native: {native_session.success_rate:.1%} success, {native_session.total_tokens_used} tokens") except Exception as e: logger.error(f"Error in scenario {scenario.name}: {e}") scenario_results["error"] = str(e) comparison_results["scenarios"][scenario.scenario_id] = scenario_results # Save intermediate results await self._save_intermediate_results(comparison_results) # Generate overall comparative analysis comparison_results["comparative_analysis"] = self._generate_comparative_analysis( comparison_results["mcp_session_summaries"], comparison_results["native_session_summaries"] ) comparison_results["end_time"] = datetime.now().isoformat() # Save final results await self._save_final_results(comparison_results) return comparison_results def _compare_sessions(self, mcp_session: TestSession, native_session: TestSession, scenario: TestScenario) -> Dict[str, Any]: """Compare MCP and Native sessions for a scenario""" comparison = { "token_efficiency": { "mcp_total_tokens": mcp_session.total_tokens_used, "native_total_tokens": native_session.total_tokens_used, "mcp_advantage": native_session.total_tokens_used - mcp_session.total_tokens_used, "mcp_efficiency_percent": ( (native_session.total_tokens_used - mcp_session.total_tokens_used) / max(native_session.total_tokens_used, 1) * 100 ) }, "performance": { "mcp_response_time_ms": mcp_session.total_response_time_ms, "native_response_time_ms": native_session.total_response_time_ms, "mcp_faster_by_ms": native_session.total_response_time_ms - mcp_session.total_response_time_ms, "mcp_speed_advantage_percent": ( (native_session.total_response_time_ms - mcp_session.total_response_time_ms) / max(native_session.total_response_time_ms, 1) * 100 ) }, "success_rates": { "mcp_success_rate": mcp_session.success_rate, "native_success_rate": native_session.success_rate, "mcp_reliability_advantage": mcp_session.success_rate - native_session.success_rate }, "edit_behavior": { "mcp_edit_count": len(mcp_session.edit_operations), "native_edit_count": len(native_session.edit_operations), "mcp_avg_edit_precision": ( sum(op.edit_precision_ratio for op in mcp_session.edit_operations) / max(len(mcp_session.edit_operations), 1) ), "native_avg_edit_precision": ( sum(op.edit_precision_ratio for op in native_session.edit_operations) / max(len(native_session.edit_operations), 1) ) }, "retrieval_method_distribution": { "mcp_methods": self._get_method_distribution(mcp_session), "native_methods": self._get_method_distribution(native_session) } } return comparison def _get_method_distribution(self, session: TestSession) -> Dict[str, int]: """Get distribution of retrieval methods used in session""" method_counts = {} for query_metric in session.query_metrics: method = query_metric.retrieval_metrics.method_type.value method_counts[method] = method_counts.get(method, 0) + 1 return method_counts def _generate_comparative_analysis(self, mcp_summaries: List[Dict], native_summaries: List[Dict]) -> Dict[str, Any]: """Generate overall comparative analysis""" if not mcp_summaries or not native_summaries: return {} # Aggregate statistics mcp_total_tokens = sum(s.get("total_tokens_used", 0) for s in mcp_summaries) native_total_tokens = sum(s.get("total_tokens_used", 0) for s in native_summaries) mcp_total_time = sum(s.get("total_response_time_ms", 0) for s in mcp_summaries) native_total_time = sum(s.get("total_response_time_ms", 0) for s in native_summaries) mcp_avg_success = sum(s.get("success_rate", 0) for s in mcp_summaries) / len(mcp_summaries) native_avg_success = sum(s.get("success_rate", 0) for s in native_summaries) / len(native_summaries) analysis = { "overall_performance": { "total_scenarios_tested": len(mcp_summaries), "mcp_total_tokens": mcp_total_tokens, "native_total_tokens": native_total_tokens, "token_savings_with_mcp": native_total_tokens - mcp_total_tokens, "token_efficiency_improvement": ( (native_total_tokens - mcp_total_tokens) / max(native_total_tokens, 1) * 100 ), "mcp_total_time_ms": mcp_total_time, "native_total_time_ms": native_total_time, "time_savings_with_mcp_ms": native_total_time - mcp_total_time, "speed_improvement_percent": ( (native_total_time - mcp_total_time) / max(native_total_time, 1) * 100 ), "mcp_avg_success_rate": mcp_avg_success, "native_avg_success_rate": native_avg_success, "reliability_improvement": mcp_avg_success - native_avg_success }, "method_effectiveness": self._analyze_method_effectiveness(), "edit_behavior_insights": self._analyze_edit_behavior_insights(), "recommendations": self._generate_enhanced_recommendations() } return analysis def _analyze_method_effectiveness(self) -> Dict[str, Any]: """Analyze effectiveness of different retrieval methods""" # This would analyze the method detection results return { "semantic_search_performance": "High quality for natural language queries", "sql_fts_performance": "Excellent for symbol lookup and navigation", "sql_bm25_performance": "Good for document search and content retrieval", "hybrid_usage_detected": "Used automatically for complex queries", "native_tools_performance": "Fast but requires more context gathering" } def _analyze_edit_behavior_insights(self) -> Dict[str, Any]: """Analyze insights from edit behavior patterns""" return { "targeted_edit_correlation": "High metadata quality leads to more targeted edits", "context_efficiency": "MCP provides better context utilization", "edit_precision": "Semantic search improves edit precision for complex changes", "multi_file_operations": "MCP better handles cross-file refactoring" } def _generate_enhanced_recommendations(self) -> List[str]: """Generate enhanced recommendations based on comprehensive analysis""" recommendations = [ "Use semantic search for natural language queries and exploratory tasks", "Use SQL FTS for symbol lookup and code navigation", "Use SQL BM25 for document and comment searches", "Enable hybrid mode for complex multi-step operations", "Improve retrieval metadata quality to increase edit precision", "Use targeted edits over full rewrites when metadata quality is high", "Implement intelligent query routing based on query characteristics" ] return recommendations async def _save_intermediate_results(self, results: Dict[str, Any]): """Save intermediate results during testing""" intermediate_file = self.results_dir / f"intermediate_results_{int(time.time())}.json" with open(intermediate_file, 'w') as f: json.dump(results, f, indent=2, default=str) async def _save_final_results(self, results: Dict[str, Any]): """Save final comprehensive results""" final_file = self.results_dir / f"comprehensive_enhanced_analysis_{self.session_id}.json" with open(final_file, 'w') as f: json.dump(results, f, indent=2, default=str) # Also save individual component results method_detection_file = self.results_dir / f"method_detection_{self.session_id}.json" if self.session_id in self.method_monitor.sessions: self.method_monitor.save_session_data(self.session_id, self.results_dir) edit_analysis_file = self.results_dir / f"edit_analysis_{self.session_id}.json" self.edit_analyzer.save_analysis_results(self.results_dir, self.session_id) logger.info(f"Final results saved to: {final_file}") logger.info(f"All analysis data saved in: {self.results_dir}") async def main(): """Main entry point for comprehensive enhanced testing""" workspace = Path("/workspaces/Code-Index-MCP") logger.info("Starting Comprehensive Enhanced MCP vs Native Analysis") logger.info("=" * 80) test_framework = ComprehensiveEnhancedMCPTest(workspace) try: results = await test_framework.run_comprehensive_comparison() print("\n" + "=" * 80) print("COMPREHENSIVE ANALYSIS COMPLETED") print("=" * 80) analysis = results.get("comparative_analysis", {}) overall = analysis.get("overall_performance", {}) print(f"\nOverall Results:") print(f" Scenarios tested: {overall.get('total_scenarios_tested', 0)}") print(f" Token efficiency improvement: {overall.get('token_efficiency_improvement', 0):.1f}%") print(f" Speed improvement: {overall.get('speed_improvement_percent', 0):.1f}%") print(f" Reliability improvement: {overall.get('reliability_improvement', 0):.1%}") print(f"\nRecommendations:") for rec in analysis.get("recommendations", []): print(f" • {rec}") print(f"\nDetailed results saved to: {test_framework.results_dir}") except KeyboardInterrupt: logger.info("Test interrupted by user") except Exception as e: logger.error(f"Test failed: {e}") raise if __name__ == "__main__": asyncio.run(main())

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/ViperJuice/Code-Index-MCP'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

comprehensive_enhanced_mcp_test.py•29.6 KiB