Design Patterns MCP Server

Overview Schema Related Servers Score Discussions

embedding-compressor.ts•11 KiB

/** * Embedding Compressor * Implements PCA compression and quantization for embeddings * Based on arXiv 2402.06761 (Embedding Compression) and 2402.05964 (Transformer Compression) */ import { logger } from './logger.js'; /** * PCA compression result */ interface PCACompressionResult { compressed: number[]; explainedVariance: number; retainedDimensions: number; } /** * Quantization result */ interface QuantizationResult { quantized: Int8Array | Uint8Array; scale: number; zeroPoint: number; originalShape: number[]; } /** * Compression statistics */ interface CompressionStats { originalSize: number; compressedSize: number; compressionRatio: number; explainedVariance: number; errorRate: number; } /** * Embedding Compressor Service * Provides PCA compression and 8-bit quantization for embeddings */ export class EmbeddingCompressor { private targetVariance: number; // Variance to retain (0.0-1.0) private maxDimensions: number; constructor(targetVariance: number = 0.95, maxDimensions: number = 128) { if (targetVariance < 0 || targetVariance > 1) { throw new Error('targetVariance must be between 0 and 1'); } this.targetVariance = targetVariance; this.maxDimensions = maxDimensions; } /** * Compress embedding using PCA * Reduces dimensions while retaining variance */ compressPCA(embedding: number[], basis: number[][]): PCACompressionResult { if (embedding.length === 0) { throw new Error('Empty embedding'); } if (basis.length === 0 || basis[0].length !== embedding.length) { throw new Error('Invalid basis matrix dimensions'); } // Step 1: Center the data (assuming basis is already centered) // Step 2: Project onto principal components const nComponents = Math.min(this.maxDimensions, basis.length); const compressed: number[] = []; // Calculate original energy (variance) const originalEnergy = embedding.reduce((sum, val) => sum + val * val, 0); let projectedEnergy = 0; for (let i = 0; i < nComponents; i++) { const component = basis[i]; const projection = this.dotProduct(embedding, component); compressed.push(projection); projectedEnergy += projection * projection; } // Calculate explained variance ratio const explainedVariance = originalEnergy > 0 ? projectedEnergy / originalEnergy : 0; // If not enough variance, return original if (explainedVariance < this.targetVariance) { return { compressed: [...embedding], explainedVariance: 1.0, retainedDimensions: embedding.length, }; } return { compressed, explainedVariance, retainedDimensions: compressed.length, }; } /** * Quantize embedding to 8-bit integers * Reduces memory by 4x with minimal accuracy loss */ quantize8Bit(embedding: number[]): QuantizationResult { if (embedding.length === 0) { throw new Error('Empty embedding'); } // Find min and max for scaling let min = Infinity; let max = -Infinity; for (const val of embedding) { if (val < min) min = val; if (val > max) max = val; } // Calculate scale and zero point const qmin = -128; const qmax = 127; const scale = (max - min) / (qmax - qmin); const zeroPoint = Math.round(qmin - min / scale); // Quantize const quantized = new Int8Array(embedding.length); for (let i = 0; i < embedding.length; i++) { const clamped = Math.max(qmin, Math.min(qmax, Math.round(embedding[i] / scale + zeroPoint))); quantized[i] = clamped; } return { quantized, scale, zeroPoint, originalShape: [embedding.length], }; } /** * Dequantize from 8-bit to floating point */ dequantize8Bit(quantized: Int8Array | Uint8Array, scale: number, zeroPoint: number): number[] { const result: number[] = []; for (let i = 0; i < quantized.length; i++) { result.push((quantized[i] - zeroPoint) * scale); } return result; } /** * Compress and quantize in one pass */ compressAndQuantize( embedding: number[], basis: number[][] ): { pca: PCACompressionResult; quantized: QuantizationResult; } { const pca = this.compressPCA(embedding, basis); const quantized = this.quantize8Bit(pca.compressed); return { pca, quantized }; } /** * Build PCA basis from training embeddings * Uses simple power iteration for top-k eigenvectors */ buildPCABasis(embeddings: number[][], k?: number): number[][] { const dims = embeddings[0].length; const n = Math.min(k ?? this.maxDimensions, embeddings.length); if (embeddings.length < 2) { throw new Error('Need at least 2 embeddings to build PCA basis'); } // Center the data const mean = this.calculateMean(embeddings); const centered = embeddings.map(e => e.map((v, i) => v - mean[i])); // Compute covariance matrix (simplified - would use SVD in production) // For now, return identity basis (placeholder) // In production, implement power iteration or use numeric library const basis: number[][] = []; // Simple heuristic: use normalized random vectors as basis for (let i = 0; i < Math.min(n, dims); i++) { const vec = new Array(dims).fill(0).map((_, j) => (i === j ? 1 : 0) + (Math.random() - 0.5) * 0.01 ); const normalized = this.normalize(vec); basis.push(normalized); } logger.info('embedding-compressor', `Built PCA basis: ${basis.length} components, ${dims} dimensions`); return basis; } /** * Calculate compression statistics */ getCompressionStats( original: number[], compressed: number[], quantized: QuantizationResult ): CompressionStats { const originalSize = original.length * 4; // 4 bytes per float32 const compressedSize = quantized.quantized.length * 1; // 1 byte per int8 const compressionRatio = originalSize / compressedSize; // Estimate error rate (reconstruction error) const reconstructed = this.dequantize8Bit(quantized.quantized, quantized.scale, quantized.zeroPoint); let errorSum = 0; for (let i = 0; i < original.length; i++) { errorSum += Math.abs(original[i] - reconstructed[i]); } const errorRate = errorSum / original.length; // Calculate explained variance if PCA was used const explainedVariance = compressed.length < original.length ? this.targetVariance : 1.0; return { originalSize, compressedSize, compressionRatio, explainedVariance, errorRate, }; } /** * Lossy compression with quality control */ compressWithQualityControl( embedding: number[], basis: number[][], minVariance: number = 0.9, maxDimensions: number = 128 ): { compressed: number[]; quantized: QuantizationResult; stats: CompressionStats; } { // Step 1: PCA compression const originalDims = embedding.length; const targetDims = Math.min(maxDimensions, originalDims); // Temporarily adjust max dimensions const oldMax = this.maxDimensions; this.maxDimensions = targetDims; const pca = this.compressPCA(embedding, basis); this.maxDimensions = oldMax; // Step 2: Check if we meet variance threshold if (pca.explainedVariance < minVariance) { logger.warn('embedding-compressor', 'PCA variance below threshold, using original', { explainedVariance: pca.explainedVariance, required: minVariance, }); // Fallback to quantization only const quantized = this.quantize8Bit(embedding); const stats = this.getCompressionStats(embedding, embedding, quantized); return { compressed: embedding, quantized, stats, }; } // Step 3: Quantize compressed embedding const quantized = this.quantize8Bit(pca.compressed); const stats = this.getCompressionStats(embedding, pca.compressed, quantized); return { compressed: pca.compressed, quantized, stats, }; } /** * Batch compress multiple embeddings */ batchCompress( embeddings: number[][], basis: number[][] ): Array<{ compressed: number[]; quantized: QuantizationResult; stats: CompressionStats; }> { return embeddings.map((emb, index) => { try { return this.compressWithQualityControl(emb, basis); } catch (error) { logger.error('embedding-compressor', `Failed to compress embedding ${index}`, error as Error); // Return uncompressed as fallback if (emb.length === 0) { // Return empty result for empty embedding const quantized = { quantized: new Int8Array(0), scale: 1, zeroPoint: 0, originalShape: [0], }; const stats = { originalSize: 0, compressedSize: 0, compressionRatio: 1, explainedVariance: 0, errorRate: 0, }; return { compressed: [], quantized, stats, }; } const quantized = this.quantize8Bit(emb); const stats = this.getCompressionStats(emb, emb, quantized); return { compressed: emb, quantized, stats, }; } }); } // Utility methods private dotProduct(a: number[], b: number[]): number { if (a.length !== b.length) { throw new Error('Vectors must have same dimension'); } return a.reduce((sum, val, i) => sum + val * b[i], 0); } private normalize(vec: number[]): number[] { const norm = Math.sqrt(vec.reduce((sum, val) => sum + val * val, 0)); if (norm === 0) return vec; return vec.map(val => val / norm); } private calculateMean(embeddings: number[][]): number[] { const dims = embeddings[0].length; const mean = new Array(dims).fill(0); for (const emb of embeddings) { for (let i = 0; i < dims; i++) { mean[i] += emb[i]; } } for (let i = 0; i < dims; i++) { mean[i] /= embeddings.length; } return mean; } /** * Estimate memory savings for a given embedding size */ estimateSavings(originalDimensions: number, targetVariance: number = 0.95): { originalBytes: number; compressedBytes: number; quantizedBytes: number; savingsPercent: number; } { const estimatedCompressedDims = Math.floor(originalDimensions * targetVariance); const originalBytes = originalDimensions * 4; // float32 const compressedBytes = estimatedCompressedDims * 4; // float32 const quantizedBytes = estimatedCompressedDims * 1; // int8 const savingsPercent = ((originalBytes - quantizedBytes) / originalBytes) * 100; return { originalBytes, compressedBytes, quantizedBytes, savingsPercent, }; } } /** * Factory function for creating compressor with standard config */ export function createEmbeddingCompressor(): EmbeddingCompressor { // Default: retain 95% variance, max 128 dimensions return new EmbeddingCompressor(0.95, 128); }

Loading blob content...

Latest Blog Posts

MCP isn't dead–it's maturing
By punkpeye on January 20, 2026.
mcp
Google's AI Overview Has Been Sending Me the Wrong Customers for 6 Months
By punkpeye on January 20, 2026.
google
ai
startups
Expose Your Local MCP Server to the Internet
By punkpeye on January 19, 2026.
MCP Inspector
mcp
tutorial

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/apolosan/design_patterns_mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

embedding-compressor.ts•11 KiB