Code-Index-MCP

Code-Index-MCP
examples

demo_reranking_working.py•8.08 KiB

#!/usr/bin/env python3 """ Demonstration of working reranking implementation. """ import asyncio import time import numpy as np from typing import List, Dict, Any from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity # Simple logging def log(msg): print(msg) class SimpleReranker: """Simple TF-IDF reranker that actually works.""" def __init__(self): self.vectorizer = TfidfVectorizer( max_features=5000, ngram_range=(1, 2), stop_words='english' ) def rerank(self, query: str, documents: List[Dict[str, Any]], top_k: int = 10) -> List[Dict[str, Any]]: """Rerank documents based on TF-IDF similarity to query.""" if not documents: return [] # Extract text from documents doc_texts = [] for doc in documents: # Combine different text fields text = f"{doc.get('filepath', '')} {doc.get('snippet', '')} {doc.get('context', '')}" doc_texts.append(text) # Add query to the beginning all_texts = [query] + doc_texts # Compute TF-IDF try: tfidf_matrix = self.vectorizer.fit_transform(all_texts) except Exception as e: log(f"TF-IDF computation failed: {e}") return documents[:top_k] # Get similarity scores query_vector = tfidf_matrix[0:1] doc_vectors = tfidf_matrix[1:] similarities = cosine_similarity(query_vector, doc_vectors)[0] # Create reranked results reranked = [] for idx, (doc, score) in enumerate(zip(documents, similarities)): reranked.append({ 'original_index': idx, 'document': doc, 'rerank_score': float(score), 'original_score': doc.get('score', 0) }) # Sort by rerank score reranked.sort(key=lambda x: x['rerank_score'], reverse=True) # Return top k return reranked[:top_k] def demo_basic_reranking(): """Demonstrate basic reranking functionality.""" log("="*60) log("Basic Reranking Demo") log("="*60) # Sample documents documents = [ { 'filepath': '/app/auth/login.py', 'snippet': 'def authenticate_user(username, password)', 'context': 'Main authentication function', 'score': 0.7 }, { 'filepath': '/app/utils/helpers.py', 'snippet': 'def format_date(date)', 'context': 'Date formatting utility', 'score': 0.8 # High score but irrelevant }, { 'filepath': '/app/auth/user_authentication.py', 'snippet': 'class UserAuthentication: handles login flow', 'context': 'Complete authentication implementation', 'score': 0.4 # Low score but highly relevant }, { 'filepath': '/app/models/user.py', 'snippet': 'class User(BaseModel)', 'context': 'User data model', 'score': 0.6 } ] query = "user authentication login" # Show original ranking log(f"\nQuery: '{query}'") log("\nOriginal ranking (by score):") sorted_orig = sorted(documents, key=lambda x: x['score'], reverse=True) for i, doc in enumerate(sorted_orig): log(f"{i+1}. {doc['filepath']} (score: {doc['score']})") # Rerank reranker = SimpleReranker() reranked = reranker.rerank(query, documents, top_k=4) log("\nAfter TF-IDF reranking:") for i, item in enumerate(reranked): doc = item['document'] orig_idx = next(j for j, d in enumerate(sorted_orig) if d['filepath'] == doc['filepath']) movement = "" if orig_idx != i: movement = f" (was #{orig_idx + 1})" log(f"{i+1}. {doc['filepath']} (rerank score: {item['rerank_score']:.3f}){movement}") def demo_performance_scaling(): """Demonstrate performance with different document counts.""" log("\n" + "="*60) log("Performance Scaling Demo") log("="*60) reranker = SimpleReranker() sizes = [10, 50, 100, 500] for size in sizes: # Generate dummy documents docs = [] for i in range(size): docs.append({ 'filepath': f'/app/file_{i}.py', 'snippet': f'def function_{i}(): # Does something with data', 'score': 0.5 + (i * 0.001) }) query = "function data processing" # Measure time start = time.time() reranked = reranker.rerank(query, docs, top_k=10) elapsed = (time.time() - start) * 1000 log(f"Reranking {size:4d} documents: {elapsed:6.2f}ms ({elapsed/size:5.2f}ms per doc)") def demo_quality_improvement(): """Demonstrate how reranking improves search quality.""" log("\n" + "="*60) log("Quality Improvement Demo") log("="*60) # Documents with misleading initial scores documents = [ # Highly relevant but low BM25 score (different terms) { 'filepath': '/app/security/auth_flow.py', 'snippet': 'implements secure login mechanism with JWT tokens', 'context': 'Complete authentication and authorization system', 'score': 0.3 }, # High BM25 score but less relevant (keyword stuffing) { 'filepath': '/app/tests/test_utils.py', 'snippet': 'test test test authentication test login test', 'context': 'Random test file', 'score': 0.9 }, # Medium relevance and score { 'filepath': '/app/api/login_endpoint.py', 'snippet': 'POST /api/login endpoint handler', 'context': 'REST API login endpoint', 'score': 0.6 }, # Good relevance, medium score { 'filepath': '/app/auth/session_manager.py', 'snippet': 'manages user sessions after authentication', 'context': 'Session management for authenticated users', 'score': 0.5 } ] query = "secure user authentication system" # Original ranking log(f"\nQuery: '{query}'") log("\nBM25 ranking (potentially misleading):") sorted_orig = sorted(documents, key=lambda x: x['score'], reverse=True) for i, doc in enumerate(sorted_orig): log(f"{i+1}. {doc['filepath']} (BM25: {doc['score']}) - {doc['snippet'][:40]}...") # Rerank reranker = SimpleReranker() reranked = reranker.rerank(query, documents) log("\nAfter intelligent reranking:") for i, item in enumerate(reranked): doc = item['document'] log(f"{i+1}. {doc['filepath']} (relevance: {item['rerank_score']:.3f}) - {doc['snippet'][:40]}...") # Calculate improvement auth_flow_orig = next(i for i, d in enumerate(sorted_orig) if 'auth_flow' in d['filepath']) auth_flow_reranked = next(i for i, item in enumerate(reranked) if 'auth_flow' in item['document']['filepath']) if auth_flow_reranked < auth_flow_orig: log(f"\n✓ Quality improved! Most relevant file moved from #{auth_flow_orig + 1} to #{auth_flow_reranked + 1}") else: log(f"\n✗ No improvement for most relevant file") def main(): """Run all demos.""" demo_basic_reranking() demo_performance_scaling() demo_quality_improvement() log("\n" + "="*60) log("Summary") log("="*60) log("✓ TF-IDF reranking works correctly") log("✓ Performance scales well with document count") log("✓ Reranking can significantly improve result relevance") log("✓ Especially useful when initial scores don't reflect true relevance") log("\nKey Benefits of Reranking:") log("1. Corrects for keyword-based scoring limitations") log("2. Considers semantic similarity between query and documents") log("3. Can be cached for repeated queries") log("4. Works as a post-processing step on any search backend") if __name__ == "__main__": main()

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/ViperJuice/Code-Index-MCP'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

demo_reranking_working.py•8.08 KiB