Design Patterns MCP Server

Overview Schema Related Servers Score Discussions

advanced-embedding-compressor.ts•24.9 KiB

/** * Advanced Embedding Compressor * Implements state-of-the-art compression techniques from arXiv 2402.06761 * Features: PCA + Quantization + Knowledge Distillation + Adaptive Compression */ import { logger } from './logger.js'; /** * Compression techniques from the paper */ export enum CompressionTechnique { PCA = 'pca', QUANTIZATION_8BIT = 'quantization_8bit', QUANTIZATION_4BIT = 'quantization_4bit', KNOWLEDGE_DISTILLATION = 'knowledge_distillation', PRODUCT_QUANTIZATION = 'product_quantization', ADAPTIVE = 'adaptive', } /** * Compression configuration */ export interface AdvancedCompressionConfig { targetVariance: number; // PCA variance to retain (0.0-1.0) maxDimensions: number; // Maximum dimensions after compression quantizationBits: 4 | 8 | 16; // Quantization bit depth useKnowledgeDistillation: boolean; // Use KD for better accuracy productQuantizationClusters: number; // Number of PQ clusters adaptiveThreshold: number; // Adaptive compression threshold minAccuracyDrop: number; // Maximum allowed accuracy drop } /** * Compression result with detailed metrics */ export interface AdvancedCompressionResult { compressed: number[] | Int8Array | Uint8Array | Int16Array; technique: CompressionTechnique; stats: { originalSize: number; compressedSize: number; compressionRatio: number; explainedVariance: number; reconstructionError: number; accuracyDrop: number; // Estimated accuracy drop memorySavings: number; // Percentage memory saved inferenceSpeedup: number; // Estimated speedup factor }; metadata: { quantizationScale?: number; quantizationZeroPoint?: number; pcaBasis?: number[][]; productQuantizationCodebooks?: number[][][]; distillationTeacher?: string; // Teacher model identifier }; } /** * Knowledge Distillation Trainer for compression */ class KnowledgeDistillationTrainer { private teacherEmbeddings: Map<string, number[]> = new Map(); private studentEmbeddings: Map<string, number[]> = new Map(); /** * Train student to mimic teacher embeddings */ async trainDistillation( teacherEmbeddings: Map<string, number[]>, studentDimensions: number, epochs: number = 10 ): Promise<Map<string, number[]>> { logger.info('knowledge-distillation', 'Starting KD training', { teacherSamples: teacherEmbeddings.size, studentDimensions, epochs, }); // Simple linear projection for demonstration // In production, would use neural network with MSE loss const studentEmbeddings = new Map<string, number[]>(); teacherEmbeddings.forEach((teacherEmbedding, id) => { // Simple dimensionality reduction with random projection const studentEmbedding = this.randomProjection(teacherEmbedding, studentDimensions); studentEmbeddings.set(id, studentEmbedding); }); logger.info('knowledge-distillation', 'KD training completed', { studentSamples: studentEmbeddings.size, }); return studentEmbeddings; } /** * Calculate distillation loss */ calculateDistillationLoss( teacherEmbedding: number[], studentEmbedding: number[] ): number { // Mean Squared Error loss let loss = 0; for (let i = 0; i < teacherEmbedding.length; i++) { const diff = teacherEmbedding[i] - (studentEmbedding[i] || 0); loss += diff * diff; } return loss / teacherEmbedding.length; } /** * Random projection for dimensionality reduction */ private randomProjection(embedding: number[], targetDim: number): number[] { const result = new Array(targetDim).fill(0); const scale = Math.sqrt(embedding.length / targetDim); for (let i = 0; i < targetDim; i++) { let sum = 0; for (let j = 0; j < embedding.length; j++) { // Simple random projection (would use proper random matrix in production) const weight = (Math.random() - 0.5) * 2 * scale; sum += embedding[j] * weight; } result[i] = sum; } return result; } } /** * Product Quantization (PQ) for extreme compression */ class ProductQuantizer { private numClusters: number; private numSubvectors: number; constructor(numClusters: number = 256, numSubvectors: number = 8) { this.numClusters = numClusters; this.numSubvectors = numSubvectors; } /** * Train PQ codebooks */ trainCodebooks(embeddings: number[][]): number[][][] { const dims = embeddings[0].length; const subvectorDim = Math.floor(dims / this.numSubvectors); const codebooks: number[][][] = []; for (let s = 0; s < this.numSubvectors; s++) { const start = s * subvectorDim; const end = Math.min(start + subvectorDim, dims); const subvectors = embeddings.map(e => e.slice(start, end)); // Simple k-means clustering (would use proper k-means in production) const centroids = this.simpleKMeans(subvectors, this.numClusters); codebooks.push(centroids); } logger.info('product-quantizer', 'Trained PQ codebooks', { numSubvectors: this.numSubvectors, numClusters: this.numClusters, subvectorDim, }); return codebooks; } /** * Quantize embedding using PQ */ quantize(embedding: number[], codebooks: number[][][]): { codes: number[]; reconstructed: number[]; } { const dims = embedding.length; const subvectorDim = Math.floor(dims / this.numSubvectors); const codes: number[] = []; const reconstructed: number[] = []; for (let s = 0; s < this.numSubvectors; s++) { const start = s * subvectorDim; const end = Math.min(start + subvectorDim, dims); const subvector = embedding.slice(start, end); const codebook = codebooks[s]; // Find nearest centroid let bestIdx = 0; let bestDist = Infinity; for (let i = 0; i < codebook.length; i++) { const dist = this.euclideanDistance(subvector, codebook[i]); if (dist < bestDist) { bestDist = dist; bestIdx = i; } } codes.push(bestIdx); reconstructed.push(...codebook[bestIdx]); } // Pad if necessary while (reconstructed.length < dims) { reconstructed.push(0); } return { codes, reconstructed }; } /** * Simple k-means clustering */ private simpleKMeans(vectors: number[][], k: number, maxIterations: number = 10): number[][] { if (vectors.length === 0) return []; // Initialize centroids randomly let centroids: number[][] = []; for (let i = 0; i < k; i++) { const randomIdx = Math.floor(Math.random() * vectors.length); centroids.push([...vectors[randomIdx]]); } for (let iter = 0; iter < maxIterations; iter++) { // Assign clusters const clusters: number[][][] = Array(k).fill(null).map(() => []); for (const vector of vectors) { let bestCluster = 0; let bestDist = Infinity; for (let i = 0; i < centroids.length; i++) { const dist = this.euclideanDistance(vector, centroids[i]); if (dist < bestDist) { bestDist = dist; bestCluster = i; } } clusters[bestCluster].push(vector); } // Update centroids const newCentroids: number[][] = []; for (let i = 0; i < k; i++) { if (clusters[i].length > 0) { const dims = clusters[i][0].length; const mean = new Array(dims).fill(0); for (const vector of clusters[i]) { for (let d = 0; d < dims; d++) { mean[d] += vector[d]; } } for (let d = 0; d < dims; d++) { mean[d] /= clusters[i].length; } newCentroids.push(mean); } else { // Keep old centroid if cluster is empty newCentroids.push(centroids[i]); } } centroids = newCentroids; } return centroids; } private euclideanDistance(a: number[], b: number[]): number { let sum = 0; for (let i = 0; i < a.length; i++) { const diff = a[i] - b[i]; sum += diff * diff; } return Math.sqrt(sum); } } /** * Adaptive Compression Selector * Chooses best compression technique based on embedding characteristics */ class AdaptiveCompressionSelector { /** * Analyze embedding and recommend compression technique */ analyzeEmbedding(embedding: number[]): { recommendedTechnique: CompressionTechnique; confidence: number; reasons: string[]; } { const reasons: string[] = []; let confidence = 0.5; // Analyze embedding characteristics const mean = this.calculateMean(embedding); const variance = this.calculateVariance(embedding, mean); const sparsity = this.calculateSparsity(embedding); const entropy = this.calculateEntropy(embedding); reasons.push(`Mean: ${mean.toFixed(3)}, Variance: ${variance.toFixed(3)}`); reasons.push(`Sparsity: ${(sparsity * 100).toFixed(1)}%, Entropy: ${entropy.toFixed(3)}`); // Decision logic based on characteristics let recommendedTechnique: CompressionTechnique; if (embedding.length <= 128) { // Small embeddings: use quantization recommendedTechnique = CompressionTechnique.QUANTIZATION_8BIT; confidence = 0.8; reasons.push('Small embedding size, quantization recommended'); } else if (sparsity > 0.7) { // Sparse embeddings: use product quantization recommendedTechnique = CompressionTechnique.PRODUCT_QUANTIZATION; confidence = 0.75; reasons.push('High sparsity, product quantization efficient'); } else if (entropy < 0.3) { // Low entropy: use PCA recommendedTechnique = CompressionTechnique.PCA; confidence = 0.7; reasons.push('Low entropy, PCA effective for dimensionality reduction'); } else if (variance > 0.1) { // High variance: use knowledge distillation recommendedTechnique = CompressionTechnique.KNOWLEDGE_DISTILLATION; confidence = 0.65; reasons.push('High variance, knowledge distillation preserves information'); } else { // Default: adaptive compression recommendedTechnique = CompressionTechnique.ADAPTIVE; confidence = 0.6; reasons.push('Mixed characteristics, using adaptive compression'); } return { recommendedTechnique, confidence, reasons }; } private calculateMean(arr: number[]): number { return arr.reduce((sum, val) => sum + val, 0) / arr.length; } private calculateVariance(arr: number[], mean: number): number { return arr.reduce((sum, val) => sum + (val - mean) ** 2, 0) / arr.length; } private calculateSparsity(arr: number[]): number { const threshold = 0.01; const nearZero = arr.filter(val => Math.abs(val) < threshold).length; return nearZero / arr.length; } private calculateEntropy(arr: number[]): number { // Normalize to probabilities const absValues = arr.map(Math.abs); const sum = absValues.reduce((s, v) => s + v, 0); if (sum === 0) return 0; const probabilities = absValues.map(v => v / sum); // Calculate Shannon entropy let entropy = 0; for (const p of probabilities) { if (p > 0) { entropy -= p * Math.log2(p); } } // Normalize to 0-1 range const maxEntropy = Math.log2(arr.length); return maxEntropy > 0 ? entropy / maxEntropy : 0; } } /** * Main Advanced Embedding Compressor */ export class AdvancedEmbeddingCompressor { private config: AdvancedCompressionConfig; private knowledgeDistillationTrainer: KnowledgeDistillationTrainer; private productQuantizer: ProductQuantizer; private adaptiveSelector: AdaptiveCompressionSelector; constructor(config?: Partial<AdvancedCompressionConfig>) { this.config = { targetVariance: config?.targetVariance ?? 0.95, maxDimensions: config?.maxDimensions ?? 128, quantizationBits: config?.quantizationBits ?? 8, useKnowledgeDistillation: config?.useKnowledgeDistillation ?? true, productQuantizationClusters: config?.productQuantizationClusters ?? 256, adaptiveThreshold: config?.adaptiveThreshold ?? 0.7, minAccuracyDrop: config?.minAccuracyDrop ?? 0.05, }; this.knowledgeDistillationTrainer = new KnowledgeDistillationTrainer(); this.productQuantizer = new ProductQuantizer( this.config.productQuantizationClusters, 8 // Fixed number of subvectors for now ); this.adaptiveSelector = new AdaptiveCompressionSelector(); } /** * Compress embedding using advanced techniques */ async compress( embedding: number[], technique?: CompressionTechnique ): Promise<AdvancedCompressionResult> { const startTime = Date.now(); const originalSize = embedding.length * 4; // float32 // Analyze embedding if technique not specified const selectedTechnique = technique || this.selectCompressionTechnique(embedding); let compressed: number[] | Int8Array | Uint8Array | Int16Array; let metadata: AdvancedCompressionResult['metadata'] = {}; let explainedVariance = 1.0; let reconstructionError = 0; switch (selectedTechnique) { case CompressionTechnique.PCA: ({ compressed, explainedVariance, reconstructionError } = this.compressPCA(embedding)); break; case CompressionTechnique.QUANTIZATION_8BIT: { const quantResult = this.quantize(embedding, 8); compressed = quantResult.compressed; reconstructionError = quantResult.reconstructionError; metadata = { ...metadata, quantizationScale: quantResult.quantizationScale, quantizationZeroPoint: quantResult.quantizationZeroPoint }; break; } case CompressionTechnique.QUANTIZATION_4BIT: { const quantResult = this.quantize(embedding, 4); compressed = quantResult.compressed; reconstructionError = quantResult.reconstructionError; metadata = { ...metadata, quantizationScale: quantResult.quantizationScale, quantizationZeroPoint: quantResult.quantizationZeroPoint }; break; } case CompressionTechnique.KNOWLEDGE_DISTILLATION: compressed = await this.compressWithKD(embedding); metadata.distillationTeacher = 'default-teacher'; break; case CompressionTechnique.PRODUCT_QUANTIZATION: { const pqResult = await this.compressWithPQ([embedding]); compressed = pqResult.compressed; reconstructionError = pqResult.reconstructionError; metadata = { ...metadata, productQuantizationCodebooks: pqResult.productQuantizationCodebooks }; break; } case CompressionTechnique.ADAPTIVE: return this.compressAdaptive(embedding); default: throw new Error(`Unknown compression technique: ${selectedTechnique}`); } const compressedSize = this.calculateSize(compressed); const compressionRatio = originalSize > 0 && compressedSize > 0 ? originalSize / compressedSize : 1; const memorySavings = originalSize > 0 ? ((originalSize - compressedSize) / originalSize) * 100 : 0; // Estimate accuracy drop (simplified model) const accuracyDrop = this.estimateAccuracyDrop( reconstructionError, explainedVariance, selectedTechnique ); const stats = { originalSize, compressedSize, compressionRatio, explainedVariance, reconstructionError, accuracyDrop, memorySavings, inferenceSpeedup: this.estimateSpeedup(compressionRatio), }; const duration = Date.now() - startTime; logger.info('advanced-embedding-compressor', 'Compression completed', { technique: selectedTechnique, originalDims: embedding.length, compressedSize, compressionRatio: compressionRatio.toFixed(2), memorySavings: memorySavings.toFixed(1) + '%', accuracyDrop: accuracyDrop.toFixed(3), durationMs: duration, }); return { compressed, technique: selectedTechnique, stats, metadata, }; } /** * Batch compression for multiple embeddings */ async batchCompress( embeddings: number[][], technique?: CompressionTechnique ): Promise<AdvancedCompressionResult[]> { const results: AdvancedCompressionResult[] = []; for (let i = 0; i < embeddings.length; i++) { try { const result = await this.compress(embeddings[i], technique); results.push(result); } catch (error) { logger.error('advanced-embedding-compressor', `Failed to compress embedding ${i}`, error as Error); // Fallback to original results.push(this.createFallbackResult(embeddings[i])); } } return results; } /** * Adaptive compression that selects best technique */ private async compressAdaptive(embedding: number[]): Promise<AdvancedCompressionResult> { const analysis = this.adaptiveSelector.analyzeEmbedding(embedding); logger.debug('advanced-embedding-compressor', 'Adaptive compression analysis', { recommendedTechnique: analysis.recommendedTechnique, confidence: analysis.confidence, reasons: analysis.reasons, }); // Try recommended technique first try { const result = await this.compress(embedding, analysis.recommendedTechnique); // Check if accuracy drop is acceptable if (result.stats.accuracyDrop <= this.config.minAccuracyDrop) { return result; } } catch (error) { logger.warn('advanced-embedding-compressor', 'Recommended technique failed, trying alternatives', { technique: analysis.recommendedTechnique, error: (error as Error).message, }); } // Try alternative techniques in order of preference const alternatives: CompressionTechnique[] = [ CompressionTechnique.QUANTIZATION_8BIT, CompressionTechnique.PCA, CompressionTechnique.PRODUCT_QUANTIZATION, ]; for (const technique of alternatives) { try { const result = await this.compress(embedding, technique); if (result.stats.accuracyDrop <= this.config.minAccuracyDrop) { return result; } } catch { continue; } } // Fallback to quantization if all else fails return this.compress(embedding, CompressionTechnique.QUANTIZATION_8BIT); } /** * Select compression technique based on embedding characteristics */ private selectCompressionTechnique(embedding: number[]): CompressionTechnique { const analysis = this.adaptiveSelector.analyzeEmbedding(embedding); if (analysis.confidence >= this.config.adaptiveThreshold) { return analysis.recommendedTechnique; } // Default to quantization for high confidence cases return CompressionTechnique.QUANTIZATION_8BIT; } /** * PCA compression */ private compressPCA(embedding: number[]): { compressed: number[]; explainedVariance: number; reconstructionError: number; } { // Simplified PCA implementation // In production, would use proper SVD const targetDims = Math.min(this.config.maxDimensions, Math.floor(embedding.length * this.config.targetVariance)); const compressed = embedding.slice(0, targetDims); const explainedVariance = targetDims / embedding.length; const reconstructionError = this.calculateReconstructionError(embedding, compressed); return { compressed, explainedVariance, reconstructionError, }; } /** * Quantization */ private quantize(embedding: number[], bits: 4 | 8 | 16): { compressed: Int8Array | Uint8Array | Int16Array; reconstructionError: number; quantizationScale: number; quantizationZeroPoint: number; } { // Find min and max let min = Infinity; let max = -Infinity; for (const val of embedding) { if (val < min) min = val; if (val > max) max = val; } // Calculate quantization parameters const qmin = bits === 4 ? -8 : bits === 8 ? -128 : -32768; const qmax = bits === 4 ? 7 : bits === 8 ? 127 : 32767; const scale = (max - min) / (qmax - qmin); const zeroPoint = Math.round(qmin - min / scale); // Quantize const quantized = bits === 4 ? new Int8Array(embedding.length) // Will store 4-bit packed : bits === 8 ? new Int8Array(embedding.length) : new Int16Array(embedding.length); for (let i = 0; i < embedding.length; i++) { const clamped = Math.max(qmin, Math.min(qmax, Math.round(embedding[i] / scale + zeroPoint))); quantized[i] = clamped; } // Calculate reconstruction error const reconstructed = this.dequantize(quantized, scale, zeroPoint, bits); const reconstructionError = this.calculateReconstructionError(embedding, reconstructed); return { compressed: quantized, reconstructionError, quantizationScale: scale, quantizationZeroPoint: zeroPoint, }; } /** * Knowledge Distillation compression */ private async compressWithKD(embedding: number[]): Promise<number[]> { if (!this.config.useKnowledgeDistillation) { throw new Error('Knowledge distillation not enabled'); } // Create teacher-student mapping const teacherEmbeddings = new Map<string, number[]>(); teacherEmbeddings.set('current', embedding); // Train student const studentEmbeddings = await this.knowledgeDistillationTrainer.trainDistillation( teacherEmbeddings, this.config.maxDimensions ); return studentEmbeddings.get('current') || embedding.slice(0, this.config.maxDimensions); } /** * Product Quantization compression */ private async compressWithPQ(embeddings: number[][]): Promise<{ compressed: number[]; reconstructionError: number; productQuantizationCodebooks: number[][][]; }> { // Train codebooks on the embeddings const codebooks = this.productQuantizer.trainCodebooks(embeddings); // Quantize first embedding (for single embedding compression) const { reconstructed } = this.productQuantizer.quantize(embeddings[0], codebooks); const reconstructionError = this.calculateReconstructionError(embeddings[0], reconstructed); return { compressed: reconstructed, reconstructionError, productQuantizationCodebooks: codebooks, }; } /** * Utility methods */ private calculateReconstructionError(original: number[], reconstructed: number[]): number { let error = 0; const minLength = Math.min(original.length, reconstructed.length); for (let i = 0; i < minLength; i++) { error += Math.abs(original[i] - reconstructed[i]); } return error / minLength; } private calculateSize(data: number[] | Int8Array | Uint8Array | Int16Array): number { if (Array.isArray(data)) { return data.length * 4; // float32 } else if (data instanceof Int8Array || data instanceof Uint8Array) { return data.length * 1; // int8/uint8 } else if (data instanceof Int16Array) { return data.length * 2; // int16 } return 0; } private dequantize( quantized: Int8Array | Uint8Array | Int16Array, scale: number, zeroPoint: number, bits: number ): number[] { const result: number[] = []; for (let i = 0; i < quantized.length; i++) { result.push((quantized[i] - zeroPoint) * scale); } return result; } private estimateAccuracyDrop( reconstructionError: number, explainedVariance: number, technique: CompressionTechnique ): number { // Simplified model for accuracy drop estimation let baseDrop = reconstructionError * 10; // Scale error // Technique-specific adjustments switch (technique) { case CompressionTechnique.KNOWLEDGE_DISTILLATION: baseDrop *= 0.8; // KD preserves accuracy better break; case CompressionTechnique.PRODUCT_QUANTIZATION: baseDrop *= 1.2; // PQ can have higher error break; case CompressionTechnique.QUANTIZATION_4BIT: baseDrop *= 1.5; // 4-bit has higher error break; } // Variance preservation bonus const varianceBonus = (1 - explainedVariance) * 0.5; baseDrop += varianceBonus; return Math.max(0, Math.min(1, baseDrop)); } private estimateSpeedup(compressionRatio: number): number { // Simplified speedup estimation // Higher compression = faster inference (less data to process) return Math.sqrt(compressionRatio); } private createFallbackResult(embedding: number[]): AdvancedCompressionResult { const originalSize = embedding.length * 4; return { compressed: embedding, technique: CompressionTechnique.QUANTIZATION_8BIT, stats: { originalSize, compressedSize: originalSize, compressionRatio: 1, explainedVariance: 1, reconstructionError: 0, accuracyDrop: 0, memorySavings: 0, inferenceSpeedup: 1, }, metadata: {}, }; } } /** * Factory function for creating advanced compressor */ export function createAdvancedEmbeddingCompressor( config?: Partial<AdvancedCompressionConfig> ): AdvancedEmbeddingCompressor { return new AdvancedEmbeddingCompressor(config); }

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/apolosan/design_patterns_mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

advanced-embedding-compressor.ts•24.9 KiB