Code-Index-MCP

repository_plugin_loader.py•15.6 KiB

""" Repository-Aware Plugin Loading System This module implements intelligent plugin loading based on repository content, reducing memory usage by loading only required language plugins. """ import logging import os import sqlite3 from collections import defaultdict from dataclasses import dataclass from datetime import datetime from pathlib import Path from typing import Any, Dict, List, Optional from mcp_server.plugin_system.plugin_discovery import PluginDiscovery from mcp_server.plugins.memory_aware_manager import get_memory_aware_manager from mcp_server.plugins.plugin_factory import PluginFactory from mcp_server.utils.index_discovery import IndexDiscovery logger = logging.getLogger(__name__) @dataclass class RepositoryProfile: """Profile of languages and files in a repository.""" repository_id: str languages: Dict[str, int] # language -> file count total_files: int indexed_at: datetime primary_languages: List[str] # Top languages by file count class RepositoryPluginLoader: """ Loads plugins based on repository content analysis. Features: - Detects languages present in repository index - Loads only required plugins (7 vs 48) - 85% memory reduction for typical repos - Caches repository profiles - Supports analysis mode for testing """ def __init__( self, plugin_strategy: str = "auto", analysis_mode: bool = False, preload_threshold: int = 10, ): """ Initialize the repository-aware plugin loader. Args: plugin_strategy: Loading strategy ('auto', 'all', 'minimal') analysis_mode: Whether to load all plugins for analysis preload_threshold: Minimum files to justify loading a plugin """ self.plugin_strategy = plugin_strategy or os.environ.get("MCP_PLUGIN_STRATEGY", "auto") self.analysis_mode = ( analysis_mode or os.environ.get("MCP_ANALYSIS_MODE", "").lower() == "true" ) self.preload_threshold = preload_threshold # Memory-aware manager for actual loading self.memory_manager = get_memory_aware_manager() # Repository profiles cache self._profiles: Dict[str, RepositoryProfile] = {} # Language to plugin mapping self._language_map = self._build_language_map() # Plugin factory for analysis self._factory = PluginFactory() logger.info( f"Repository plugin loader initialized: " f"strategy={self.plugin_strategy}, analysis_mode={self.analysis_mode}" ) def _build_language_map(self) -> Dict[str, str]: """Build mapping of file extensions to language names.""" # Common mappings extension_map = { ".py": "python", ".js": "javascript", ".jsx": "javascript", ".ts": "typescript", ".tsx": "typescript", ".java": "java", ".go": "go", ".rs": "rust", ".c": "c", ".cpp": "cpp", ".cc": "cpp", ".cxx": "cpp", ".h": "c", ".hpp": "cpp", ".cs": "csharp", ".swift": "swift", ".kt": "kotlin", ".rb": "ruby", ".php": "php", ".r": "r", ".scala": "scala", ".dart": "dart", ".lua": "lua", ".jl": "julia", ".ml": "ocaml", ".clj": "clojure", ".ex": "elixir", ".exs": "elixir", ".erl": "erlang", ".hrl": "erlang", ".hs": "haskell", ".elm": "elm", ".fs": "fsharp", ".fsx": "fsharp", ".pl": "perl", ".pm": "perl", ".sh": "bash", ".bash": "bash", ".zsh": "bash", ".fish": "bash", ".ps1": "powershell", ".psm1": "powershell", ".zig": "zig", ".nim": "nim", ".v": "verilog", ".sv": "systemverilog", ".vhd": "vhdl", ".vhdl": "vhdl", ".html": "html", ".htm": "html", ".css": "css", ".scss": "css", ".sass": "css", ".less": "css", ".xml": "xml", ".json": "json", ".yaml": "yaml", ".yml": "yaml", ".toml": "toml", ".md": "markdown", ".markdown": "markdown", ".rst": "restructuredtext", ".tex": "latex", ".bib": "bibtex", } return extension_map async def analyze_repository( self, repository_path: Path, force_refresh: bool = False ) -> RepositoryProfile: """ Analyze a repository to determine which languages are present. Args: repository_path: Path to repository force_refresh: Force re-analysis even if cached Returns: RepositoryProfile with language statistics """ # Get repository ID (hash or name) repo_id = self._get_repository_id(repository_path) # Check cache if not force_refresh and repo_id in self._profiles: logger.debug(f"Using cached profile for {repo_id}") return self._profiles[repo_id] logger.info(f"Analyzing repository: {repository_path}") # Find index discovery = IndexDiscovery(repository_path) index_path = discovery.get_local_index_path() if not index_path: logger.warning(f"No index found for {repository_path}") return self._create_empty_profile(repo_id) # Analyze index language_counts = self._analyze_index(index_path) # Create profile profile = RepositoryProfile( repository_id=repo_id, languages=language_counts, total_files=sum(language_counts.values()), indexed_at=datetime.now(), primary_languages=self._get_primary_languages(language_counts), ) # Cache profile self._profiles[repo_id] = profile logger.info( f"Repository analysis complete: " f"{len(profile.languages)} languages, " f"{profile.total_files} files, " f"primary: {profile.primary_languages[:3]}" ) return profile def _analyze_index(self, index_path: Path) -> Dict[str, int]: """Analyze SQLite index to count files by language.""" language_counts = defaultdict(int) try: conn = sqlite3.connect(str(index_path)) cursor = conn.cursor() # Query all file paths cursor.execute("SELECT path FROM files WHERE is_deleted = 0 OR is_deleted IS NULL") for (file_path,) in cursor: # Determine language from extension path = Path(file_path) ext = path.suffix.lower() if ext in self._language_map: language = self._language_map[ext] language_counts[language] += 1 conn.close() except Exception as e: logger.error(f"Error analyzing index: {e}") return dict(language_counts) def _get_primary_languages(self, language_counts: Dict[str, int]) -> List[str]: """Get primary languages sorted by file count.""" # Sort by count descending sorted_langs = sorted(language_counts.items(), key=lambda x: x[1], reverse=True) # Return language names return [lang for lang, count in sorted_langs if count >= self.preload_threshold] def _get_repository_id(self, repository_path: Path) -> str: """Get unique identifier for repository.""" import hashlib # Try to get git remote URL try: import subprocess result = subprocess.run( ["git", "config", "--get", "remote.origin.url"], cwd=repository_path, capture_output=True, text=True, check=True, ) url = result.stdout.strip() return hashlib.sha256(url.encode()).hexdigest()[:12] except Exception: # Fall back to path hash return hashlib.sha256(str(repository_path.absolute()).encode()).hexdigest()[:12] def _create_empty_profile(self, repo_id: str) -> RepositoryProfile: """Create empty profile for repositories without indexes.""" return RepositoryProfile( repository_id=repo_id, languages={}, total_files=0, indexed_at=datetime.now(), primary_languages=[], ) async def load_plugins_for_repository( self, repository_path: Path, include_related: bool = True ) -> Dict[str, Any]: """ Load plugins based on repository content. Args: repository_path: Path to repository include_related: Include related languages (e.g., TypeScript with JavaScript) Returns: Dictionary of loaded plugins by language """ # Check strategy if self.plugin_strategy == "all" or self.analysis_mode: return await self._load_all_plugins() elif self.plugin_strategy == "minimal": return {} # No automatic loading # Auto strategy - analyze and load profile = await self.analyze_repository(repository_path) if not profile.languages: logger.warning(f"No languages detected in {repository_path}") return {} # Determine which plugins to load languages_to_load = set(profile.primary_languages) if include_related: # Add related languages related_map = { "javascript": ["typescript"], "typescript": ["javascript"], "c": ["cpp"], "cpp": ["c"], } for lang in list(languages_to_load): if lang in related_map: languages_to_load.update(related_map[lang]) # Load plugins loaded_plugins = {} load_start = datetime.now() for language in languages_to_load: plugin = self.memory_manager.get_plugin(language) if plugin: loaded_plugins[language] = plugin load_time = (datetime.now() - load_start).total_seconds() logger.info( f"Loaded {len(loaded_plugins)} plugins for {repository_path.name} " f"in {load_time:.2f}s (detected: {len(profile.languages)}, " f"loaded: {list(loaded_plugins.keys())})" ) return loaded_plugins async def _load_all_plugins(self) -> Dict[str, Any]: """Load all available plugins (analysis mode).""" logger.info("Loading all plugins (analysis mode)") loaded_plugins = {} # Discover all available plugins plugin_discovery = PluginDiscovery() plugin_dirs = [Path(__file__).parent] # Default to plugins directory discovered = plugin_discovery.discover_plugins(plugin_dirs) for plugin_name in discovered: plugin = self.memory_manager.get_plugin(plugin_name) if plugin: loaded_plugins[plugin_name] = plugin logger.info(f"Loaded {len(loaded_plugins)} plugins in analysis mode") return loaded_plugins def get_repository_profile(self, repository_id: str) -> Optional[RepositoryProfile]: """Get cached repository profile.""" return self._profiles.get(repository_id) def get_loading_statistics(self) -> Dict[str, Any]: """Get statistics about plugin loading.""" memory_status = self.memory_manager.get_memory_status() # Calculate savings all_plugin_count = len(self._language_map) loaded_plugin_count = memory_status["loaded_plugins"] reduction_percent = ((all_plugin_count - loaded_plugin_count) / all_plugin_count) * 100 return { "strategy": self.plugin_strategy, "analysis_mode": self.analysis_mode, "total_available_plugins": all_plugin_count, "loaded_plugins": loaded_plugin_count, "memory_reduction_percent": reduction_percent, "repository_profiles": len(self._profiles), "memory_status": memory_status, "profiles": { repo_id: { "languages": profile.languages, "total_files": profile.total_files, "primary_languages": profile.primary_languages[:3], } for repo_id, profile in self._profiles.items() }, } def clear_profile_cache(self): """Clear cached repository profiles.""" self._profiles.clear() logger.info("Repository profile cache cleared") async def suggest_plugins(self, file_path: Path) -> List[str]: """ Suggest plugins needed for a specific file. Args: file_path: Path to file Returns: List of suggested plugin names """ ext = file_path.suffix.lower() if ext in self._language_map: language = self._language_map[ext] # Check if already loaded if self.memory_manager.get_plugin_info(language): return [] return [language] return [] def get_required_plugins(self) -> List[str]: """ Get list of plugins required for the current repository. Returns: List of language plugin names that should be loaded """ if not self._profiles: logger.warning("No repository profiles available, returning common languages") return ["python", "javascript", "typescript"] # Get all languages from all profiles all_languages = set() for profile in self._profiles.values(): all_languages.update(profile.primary_languages) # Convert to sorted list return sorted(list(all_languages)) def get_priority_languages(self) -> List[str]: """ Get languages in priority order for loading. Returns: List of languages sorted by priority (most important first) """ required = self.get_required_plugins() # Define priority order - common languages first priority_order = [ "python", "javascript", "typescript", "java", "go", "rust", "c", "cpp", "csharp", "swift", "kotlin", ] # Sort required languages by priority prioritized = [] for lang in priority_order: if lang in required: prioritized.append(lang) # Add any remaining languages for lang in required: if lang not in prioritized: prioritized.append(lang) return prioritized def log_loading_plan(self): """Log the plugin loading plan for debugging.""" required = self.get_required_plugins() priority = self.get_priority_languages() logger.info(f"Plugin loading plan: {len(required)} plugins required") logger.debug(f"Required plugins: {required}") logger.debug(f"Priority order: {priority}") # Singleton instance _loader_instance: Optional[RepositoryPluginLoader] = None def get_repository_plugin_loader() -> RepositoryPluginLoader: """Get the singleton repository plugin loader.""" global _loader_instance if _loader_instance is None: _loader_instance = RepositoryPluginLoader() return _loader_instance

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/ViperJuice/Code-Index-MCP'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

repository_plugin_loader.py•15.6 KiB