Qdrant RAG MCP Server

github-token-optimization-guide.md•10.7 KiB

# GitHub Integration Token Optimization Guide This guide explains how the Qdrant RAG MCP Server's GitHub integration achieves 80-90% token reduction while maintaining high-quality issue analysis and remediation capabilities. ## Table of Contents - [Overview](#overview) - [The Token Challenge](#the-token-challenge) - [Architecture of Token Optimization](#architecture-of-token-optimization) - [How MCP Search Maintains Efficiency](#how-mcp-search-maintains-efficiency) - [Configuration Options](#configuration-options) - [Real-World Impact](#real-world-impact) - [Best Practices](#best-practices) ## Overview The GitHub integration's token optimization strategy allows AI systems like Claude to analyze complex issues and generate fixes while consuming 80-90% fewer tokens. This is achieved through intelligent response filtering that preserves analysis quality while reducing output verbosity. ### Key Principles 1. **Full Internal Analysis**: The system performs exhaustive searches and analysis internally 2. **Intelligent Summarization**: Only the most relevant information is returned to the consumer 3. **Quality Preservation**: All recommendations and insights are based on complete data 4. **Configurable Verbosity**: Users can choose between summary and full modes ## The Token Challenge When analyzing a GitHub issue, the system typically performs: - 16+ separate RAG searches - 10 results per search with context expansion - Dependency analysis across the codebase - Pattern extraction from hundreds of code chunks Without optimization, this would return: - ~160 search results with full content - ~50KB-100KB of raw search data per issue - Thousands of tokens consumed per analysis ## Architecture of Token Optimization ### 1. Internal Processing Pipeline The `IssueAnalyzer` class performs comprehensive analysis in stages: ```python # Full analysis happens internally extracted_info = self._extract_issue_information(issue) # Extract all patterns search_results = self._perform_rag_searches(extracted_info) # 16+ searches analysis = self._analyze_search_results(search_results) # Full analysis recommendations = self._generate_recommendations(...) # Complete recommendations ``` ### 2. Response Filtering Layer Based on configuration, the response is filtered: ```python # Check configuration for response verbosity response_verbosity = config.get("response_verbosity", "full") if response_verbosity == "summary": result["extracted_info"] = self._summarize_extracted_info(extracted_info) result["search_summary"] = self._summarize_search_results(search_results, analysis) else: result["extracted_info"] = extracted_info result["search_results"] = search_results ``` ### 3. Summarization Methods #### `_summarize_search_results()` Reduces hundreds of search results to key metrics: - Total searches and results count - High-relevance result count (score > 0.7) - Top 5 most relevant files with scores - Key insights extracted from patterns #### `_summarize_extracted_info()` Converts detailed extraction to counts and samples: - Reference counts instead of full lists - Top 5 keywords only - Sample error/file references - Preserved classification metadata ## How MCP Search Maintains Efficiency ### 1. Project-Aware Context The MCP server maintains project context to avoid redundant operations: ```python # Project context is cached current_project = get_current_project() # Searches are scoped to current project search_collections = [ f"{current_project['collection_prefix']}_code", f"{current_project['collection_prefix']}_documentation", f"{current_project['collection_prefix']}_config" ] ``` ### 2. Intelligent Query Construction The system builds targeted queries from issue content: ```python # Extract and prioritize queries queries = [] queries.append(("title", extracted_info["title"])) # Primary queries.extend([("error", err) for err in errors[:3]]) # Top 3 errors queries.extend([("function", func) for func in functions[:3]]) # Top 3 functions queries.extend([("keyword", kw) for kw in keywords[:5]]) # Top 5 keywords ``` ### 3. Search Optimization Strategies #### Batched Searches Multiple searches are executed efficiently: ```python # Searches are batched by type for query_type, query_text in queries: if query_type in ["function", "class", "error"]: results = search_code(query_text, n_results=10) else: results = search(query_text, n_results=5) ``` #### Result Deduplication Duplicate results are filtered: ```python seen_files = set() unique_results = [] for result in all_results: if result["file_path"] not in seen_files: seen_files.add(result["file_path"]) unique_results.append(result) ``` #### Relevance Filtering Only high-confidence results are processed: ```python relevant_files = [ file for file, score in file_scores.items() if score >= self.similarity_threshold # Default: 0.7 ] ``` ### 4. MCP Tool Integration The GitHub integration leverages MCP tools efficiently: ```python # MCP tools are called with optimized parameters search_functions = { "search": search, # General search "search_code": search_code, # Code-specific search "search_docs": search_docs # Documentation search } # Each search is configured for efficiency results = search_code( query=query_text, n_results=10, # Limited results include_context=True, # Expanded context include_dependencies=True, # Related files search_mode="hybrid" # Best accuracy ) ``` ## Configuration Options ### Server Configuration (`server_config.json`) ```json { "github": { "issues": { "analysis": { "search_limit": 10, "context_expansion": true, "include_dependencies": true, "code_similarity_threshold": 0.7, "response_verbosity": "summary", "include_raw_search_results": false, "max_relevant_files": 5, "truncate_content": true, "content_preview_length": 200 } } } } ``` ### Configuration Parameters | Parameter | Type | Default | Description | |-----------|------|---------|-------------| | `response_verbosity` | string | "summary" | Output mode: "summary" or "full" | | `include_raw_search_results` | boolean | false | Include raw search results in response | | `search_limit` | integer | 10 | Maximum results per search | | `max_relevant_files` | integer | 5 | Maximum files to include in summary | | `content_preview_length` | integer | 200 | Length of content previews | | `code_similarity_threshold` | float | 0.7 | Minimum score for relevance | ## Real-World Impact ### Token Consumption Comparison #### Before Optimization (Full Mode) ```json { "search_results": { "code_search": [/* 90 results, ~30KB */], "general_search": [/* 70 results, ~25KB */], "total_size": "~57KB", "estimated_tokens": "~15,000" } } ``` #### After Optimization (Summary Mode) ```json { "search_summary": { "total_searches": 2, "total_results": 160, "high_relevance_count": 15, "top_files": [/* 5 files with scores */], "key_insights": [/* 3-5 insights */], "total_size": "~2KB", "estimated_tokens": "~500" } } ``` **Result**: 96% reduction in response size, 97% reduction in tokens ### Quality Preservation Despite the dramatic token reduction: - **Confidence scores** remain accurate (based on all data) - **Recommendations** are comprehensive (full analysis) - **File relevance** is preserved (top files highlighted) - **Fix generation** quality is maintained (uses full context) ## Best Practices ### 1. For Integration Developers - **Default to Summary Mode**: Set `response_verbosity: "summary"` by default - **Use Threshold Filtering**: Adjust `code_similarity_threshold` for precision - **Limit Search Scope**: Use `search_limit` to control search breadth - **Cache Results**: Implement caching for repeated analyses ### 2. For API Consumers - **Trust the Summaries**: The system has already done comprehensive analysis - **Focus on Top Files**: The `top_files` list identifies the most relevant code - **Use Confidence Scores**: High confidence (>80%) indicates reliable analysis - **Request Full Mode Sparingly**: Only when debugging or deep diving ### 3. For Performance Optimization - **Incremental Reindexing**: Keep indices up-to-date for accurate searches - **Project Scoping**: Ensure correct project context to avoid cross-project searches - **Batch Operations**: Analyze multiple issues in sequence to leverage caching - **Monitor Token Usage**: Track token consumption to optimize further ## Advanced Usage ### Dynamic Verbosity Control For specific use cases, verbosity can be controlled dynamically: ```python # Temporarily use full mode for detailed analysis analyzer.config["issues"]["analysis"]["response_verbosity"] = "full" detailed_result = analyzer.analyze_issue(issue_number) # Revert to summary mode analyzer.config["issues"]["analysis"]["response_verbosity"] = "summary" ``` ### Custom Summarization Extend the summarization for specific needs: ```python class CustomIssueAnalyzer(IssueAnalyzer): def _summarize_search_results(self, search_results, analysis): summary = super()._summarize_search_results(search_results, analysis) # Add custom metrics summary["custom_metrics"] = { "security_relevance": self._calculate_security_score(search_results), "test_coverage": self._estimate_test_coverage(analysis) } return summary ``` ## Troubleshooting ### Issue: Summary Missing Critical Information **Solution**: Adjust configuration parameters: ```json { "max_relevant_files": 10, // Increase from 5 "content_preview_length": 500 // Increase from 200 } ``` ### Issue: Low Confidence Scores **Solution**: Fine-tune search parameters: ```json { "search_limit": 15, // Increase search breadth "code_similarity_threshold": 0.6, // Lower threshold "include_dependencies": true // Ensure enabled } ``` ### Issue: Token Usage Still High **Solution**: Verify configuration is applied: ```python # Check current configuration print(analyzer.config.get("issues", {}).get("analysis", {})) # Ensure summary mode is active assert analyzer.config["issues"]["analysis"]["response_verbosity"] == "summary" ``` ## Conclusion The token optimization strategy in the GitHub integration demonstrates how intelligent response filtering can dramatically reduce AI token consumption without sacrificing analysis quality. By performing comprehensive internal analysis and returning only the most actionable information, the system enables efficient, high-quality automated issue resolution at scale. For more details on the GitHub integration architecture, see the [GitHub Integration Guide](./github-integration-guide.md).

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/ancoleman/qdrant-rag-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

github-token-optimization-guide.md•10.7 KiB