Code-Index-MCP

Code-Index-MCP
docs
implementation

ADAPTIVE_CHUNKING_IMPLEMENTATION.md•3.63 KiB

# Phase 1: Adaptive Chunking Implementation Summary ## Overview Successfully implemented token-based adaptive chunking for the markdown plugin, replacing character-based limits with more accurate token-based sizing. ## Implementation Details ### 1. Token-Based Sizing - Integrated `TokenEstimator` from `chunk_optimizer.py` into `MarkdownChunkStrategy` - All chunk size calculations now use token estimates instead of character counts - Maintains backward compatibility by converting token limits to approximate character limits ### 2. Environment Variable Configuration The following environment variables can be used to configure chunking: - `MARKDOWN_MAX_CHUNK_TOKENS` - Maximum tokens per chunk (default: 500) - `MARKDOWN_MIN_CHUNK_TOKENS` - Minimum tokens per chunk (default: 100) - `MARKDOWN_OVERLAP_TOKENS` - Token overlap between chunks (default: 50) ### 3. Adaptive Sizing Feature The system automatically adjusts chunk sizes based on document size: - **Small documents** (< 2000 tokens): Max 300 tokens per chunk - **Medium documents** (2000-10000 tokens): Default sizing (500 tokens) - **Large documents** (> 10000 tokens): Max 1000 tokens per chunk (capped) This ensures optimal chunk sizes for different document types while maintaining search quality. ### 4. Token-Aware Operations Updated all chunking operations to be token-aware: - `_split_paragraph_by_tokens()` - Splits large paragraphs based on token count - `_find_token_boundary()` - Uses binary search to find optimal split points - `_find_overlap_start()` - Calculates overlap based on token count - `merge_small_chunks()` - Merges chunks based on token limits ## Test Results ### Configuration Tests 1. **Default Configuration** (500 token max): - 3,334 token document → 74 chunks - Average chunk size: 441 tokens 2. **Small Chunks** (300 token max): - Same document → 132 chunks - Average chunk size: 235 tokens 3. **Large Chunks** (800 token max): - Same document → 50 chunks - Average chunk size: 687 tokens ### Adaptive Sizing Tests - Small document (285 tokens) → Adjusted to 300 token max → 1 chunk - Medium document (14,250 tokens) → Adjusted to 1000 token max → 14 chunks - Large document (285,000 tokens) → Adjusted to 1000 token max → 271 chunks ## Code Changes ### Modified Files 1. `/app/mcp_server/plugins/markdown_plugin/chunk_strategies.py` - Added token-based sizing throughout - Implemented adaptive sizing logic - Added environment variable support - Updated all splitting methods to use tokens ### Key Features Added ```python # Token estimator integration self.token_estimator = TokenEstimator() # Environment variable support self.max_chunk_tokens = max_chunk_size or int(os.getenv('MARKDOWN_MAX_CHUNK_TOKENS', '500')) # Adaptive sizing def _adjust_chunk_size_for_document(self, content: str): total_tokens = self.token_estimator.estimate_tokens(content) if total_tokens < 2000: self.max_chunk_tokens = min(self.max_chunk_tokens, 300) # ... etc ``` ## Benefits 1. **More Accurate Sizing**: Token-based limits better reflect actual model context windows 2. **Flexible Configuration**: Easy to adjust via environment variables 3. **Adaptive Performance**: Automatically optimizes for document size 4. **Better Search Quality**: Consistent chunk sizes improve embedding quality 5. **Production Ready**: Environment variables allow per-deployment tuning ## Next Steps - Monitor chunking performance in production - Collect metrics on average chunk sizes and search quality - Consider adding more sophisticated adaptive strategies based on content type - Potentially expose chunk size settings via API for dynamic configuration

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/ViperJuice/Code-Index-MCP'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

ADAPTIVE_CHUNKING_IMPLEMENTATION.md•3.63 KiB