Which integrations are available for this server?

Supports running inference engines in Docker containers for benchmarking and serving. Allows downloading model files (GGUF) from Hugging Face Hub for benchmarking and serving. Allows using NVIDIA's API for LLM-judge evaluation and storing API keys securely. Allows using OpenAI's API for LLM-judge quality evaluation and for benchmarking against GPT models.

inferbench

by JoniMartin27

Overview Schema Related Servers Score Discussions

Python

Local

¿Quieres correr LLMs en local pero no sabes qué cuantización te entra en tu GPU, ni a cuántos tok/s va a ir, ni qué motor es más rápido para tu hardware? InferBench lo responde por ti, midiendo de verdad — sin números inventados.

Eliges modelo + cuantizaciones → InferBench:
  ① descarga el binario del motor (release oficial GitHub)
  ② descarga los GGUF que falten desde Hugging Face
  ③ arranca el motor con la config óptima para tu hardware
  ④ ejecuta la suite de prompts midiendo TTFT, tok/s, VRAM, calidad
  ⑤ guarda los resultados y te deja compararlos lado a lado

Ejemplo real

RTX 3070 · 8 GB VRAM · 32 GB RAM — corriendo SmolLM2-360M Q8_0 con llama.cpp nativo:

Métrica	Resultado
TTFT	588 ms
Throughput	272 tok/s
VRAM pico	2.47 GB
Calidad (offline scorer)	75 / 100
Contexto automático	8 192 tokens

Números sacados del runner de producción — sin datos inventados.

Related MCP server: tree-sitter-analyzer

Descargar

Coge el instalador para tu sistema desde la página de Releases — no necesitas Python ni Node instalados, el backend va embebido como sidecar:

Sistema	Archivo
Windows	`InferBench Setup *.exe` (NSIS)
macOS	`InferBench-*.dmg`
Linux	`InferBench-*.AppImage`

¿Prefieres compilarlo tú? Salta a Instalación (desarrollo).

Features

Auto-bootstrap end-to-end: 1 click → binario + modelo + arranque + benchmark + cleanup
Modo nativo (sin Docker) para llama.cpp: descarga release pre-compilada de GitHub (auto-detecta CUDA, descarga también las DLLs del runtime)
Modo Docker disponible para cualquier motor que lo requiera
Detección automática de hardware: CPU, RAM, GPU (NVIDIA via NVML, AMD via rocm-smi, Apple Silicon via system_profiler). Cacheada para que el listado de compatibilidad sea instantáneo (~4 ms para todo el catálogo)
Catálogo de 126 modelos con auto-descarga GGUF desde HF, todos verificados contra HuggingFace (incluye visión, código, reasoning, MoE y difusión de imagen). Ver Catálogo
Escaneo de GGUFs locales: detecta modelos de LM Studio, Ollama, HF cache, etc., con cuenta de parámetros real leída de la metadata GGUF (independiente del quant)
Visión real (multimodal): para modelos de visión (Qwen2-VL, Qwen2.5-VL, MiniCPM-V) descarga el mmproj, arranca llama-server con --mmproj y benchmarkea un prompt con imagen real vía la API de visión OpenAI-compatible. También en APIs (gpt-4o, claude) y motores Docker (vLLM sirve el modelo de visión) — aunque vLLM con un modelo de visión necesita bastante VRAM (un 2B no entra holgado en 8 GB; en local, llama.cpp es la ruta fiable a poca VRAM)
Optimizador: dado tu hardware + modelo + motor, calcula la mejor cuantización, KV-cache, contexto máximo, MoE offload, flags
Compresión de KV-cache explicada: 5 presets (Calidad→Extremo) con qué hace / en qué afecta / qué permite, + tabla de los modelos más potentes que caben con cada compresión para tu hardware
Evaluación de calidad en 3 modos: scorer offline basado en referencia (sin GPU/API, corre en cualquier PC), LLM-judge con el motor local, o LLM-judge por API externa. Ver Calidad
Modo sweep: lanza el mismo modelo con N cuantizaciones distintas en cola
Comparación: selecciona varias runs del historial, ve métricas y gráficos lado a lado
SSE en vivo: progreso de descargas (con %), TTFT, tok/s actual, log estilo terminal
Descargas resilientes: GGUFs de decenas de GB con reintentos automáticos (backoff exponencial) y reanudación desde el parcial vía cabecera Range si la red se corta
API keys en el keyring del SO: guarda las claves de OpenAI/Anthropic/OpenRouter/NVIDIA en el gestor de credenciales del sistema (Ajustes → API keys); el benchmark las usa solo, nunca se escriben a disco
Observabilidad con lookspan (opt-in): si defines LOOKSPAN_ENDPOINT, cada run de benchmark se exporta como un trace a lookspan (span raíz + un llm_call por prompt con TTFT, tok/s, VRAM y calidad reales). Best-effort: un fallo de red nunca rompe el benchmark
Stop en cualquier momento: cancela bootstrap, descarga o ejecución
Persistencia: SQLite con todos los runs (engine, modelo, quant, flags, métricas por prompt, output bruto)
Modo Serve / MCP: sirve un modelo cuantizado óptimo de forma residente y exponlo a cualquier app por MCP. Ver Serve / MCP
Generación de imagen (local): además de LLM de texto, InferBench orquesta modelos de imagen vía stable-diffusion.cpp — mismo patrón que con llama.cpp. Sirve un modelo de imagen y genera desde la app o por MCP (generate_image). Ver Generación de imagen

Serve / MCP

Además de benchmarkear, InferBench puede servir un modelo cuantizado de forma residente y exponerlo a cualquier app por MCP (Model Context Protocol). Reusa la misma tubería del benchmark (detección de hardware → optimizador → descarga de GGUF → arranque del motor): InferBench actúa de intermediario que orquesta los modelos, elige la cuantización óptima para tu hardware, descarga el GGUF, arranca el motor y enruta la inferencia.

Eliges modelo (o "recomendar para mi hardware") → InferBench:
  ① elige la cuantización óptima para tu GPU (o respeta la que indiques)
  ② descarga el GGUF que falte desde Hugging Face
  ③ arranca el motor de forma residente y expone su endpoint OpenAI
  ④ lo publica como servidor MCP "inferbench" para Claude Desktop / Cursor / etc.

v1: motor llamacpp (nativo, siempre disponible) y un solo modelo servido a la vez (slot único). La API es agnóstica de motor; otros motores llegarán después.

Una sola app, dos modos

InferBench es una app unificada, no dos. Desde Ajustes → Modos / Features activas o desactivas cada modo con un toggle:

Benchmark — Dashboard, Motores, Modelos, Benchmark, Historial.
Serve / MCP — la vista Serve.

Ambos vienen ON por defecto. Al desactivar un modo, sus ítems desaparecen de la barra lateral (la preferencia se guarda en localStorage). Nunca puedes desactivar los dos a la vez: siempre queda al menos uno.

La vista Serve

Elige un modelo del catálogo o pulsa recomendar para mi hardware; deja la cuantización en Auto (óptimo) o fíjala a mano.
Pulsa Servir: InferBench descarga (si hace falta) y arranca el motor, mostrando la fase y el progreso hasta ready, y te da el endpoint OpenAI del modelo.
Pruébalo en el mini-chat integrado.
Abre Conectar por MCP para copiar el snippet de configuración listo para Claude Desktop / Cursor, o la URL HTTP.
Parar libera la VRAM.

Conectar Claude Desktop / Cursor

InferBench expone un servidor MCP llamado inferbench con dos transportes:

stdio — el cliente lanza el sidecar del backend con el flag --mcp. Pega esto en la config de Claude Desktop (claude_desktop_config.json) o de Cursor:
```
{
  "mcpServers": {
    "inferbench": {
      "command": "C:\\ruta\\a\\inferbench-backend.exe",
      "args": ["--mcp"]
    }
  }
}
```
El panel Conectar por MCP de la vista Serve te da el snippet con la ruta real ya rellenada.
HTTP — para clientes que hablan MCP sobre HTTP, apunta a:
```
http://localhost:7777/mcp
```

El transporte stdio no arranca su propio motor: hace de proxy al backend. Por eso la app InferBench debe estar abierta para servir un modelo por MCP. Si no lo está, las tools devuelven un error claro ("InferBench no está abierto…") en vez de fallar.

Tools MCP: list_models, recommend_models, get_hardware, serve_model, serve_status, chat, stop_model y generate_image (si el modelo servido es de imagen). La guía completa (qué hace cada tool, snippets y troubleshooting) está en docs/MCP.md.

Generación de imagen

InferBench no se queda en LLM de texto: orquesta también modelos de imagen locales, reutilizando exactamente el mismo patrón. Donde para texto usa el binario nativo de llama.cpp + GGUF, para imagen usa su hermano de difusión, stable-diffusion.cpp (binario CUDA precompilado de los releases de GitHub + pesos GGUF/safetensors de Hugging Face + su server HTTP). InferBench sigue siendo el intermediario que orquesta: elige los pesos, descarga lo que falte (incluidos los archivos auxiliares de FLUX), arranca sd-server de forma residente y enruta la generación.

Eliges un modelo de imagen → InferBench:
  ① descarga el binario de stable-diffusion.cpp (release oficial GitHub + DLLs CUDA)
  ② descarga los pesos GGUF/safetensors (y los auxiliares t5xxl/clip_l/vae de FLUX)
  ③ arranca sd-server de forma residente (puerto 7861) y expone su API de imagen
  ④ genera con tu prompt y te devuelve el PNG — desde la app o por MCP (generate_image)

Vive dentro del modo Serve existente (no es un modo nuevo) y comparte el slot único: una GPU = un modelo servido a la vez, sea de texto o de imagen.

Servir y generar

En la vista Serve, el selector incluye los modelos de imagen (agrupados por modalidad). Al servir uno de imagen, en vez del mini-chat aparece un GenerateCard: prompt, negative prompt opcional, steps (slider, 20 por defecto), tamaño con presets (512×512 / 768×768 / 1024×1024), seed (con botón aleatorio) y botón Generar, con preview de la imagen y el tiempo de generación. Por API: POST /api/serve/generate (proxy a la API AUTOMATIC1111-compatible /sdapi/v1/txt2img del server, respuesta images: [PNG base64]); si no hay modelo de imagen ready → HTTP 409. Por MCP, la tool generate_image devuelve la imagen para que Claude Desktop la muestre.

Modelos (requisitos honestos en 8 GB)

Modelo	Archivos	VRAM aprox. (8 GB)
SD 1.5 / SD-Turbo	single-file	~2–4 GB · entra holgado (default garantizado)
SDXL	single-file	~6–8 GB · ajustado a 1024×1024
FLUX.1-schnell (Q4)	multi-archivo (diffusion + t5xxl + clip_l + vae)	~7–8 GB · al límite (showcase)

El vídeo (Wan2.1/Wan2.2, LTX — ya soportados por stable-diffusion.cpp) llega en una fase 2; esta entrega es solo imagen. El pipeline de benchmark no cambia: no hay métricas de generación todavía.

La guía completa (modelos, cuantización, archivos auxiliares de FLUX y troubleshooting) está en docs/IMAGE.md.

Stack

Capa	Tecnología
App de escritorio	Electron 42
Frontend	React 18 + Vite 8 + TailwindCSS + Recharts + lucide-react
Backend	FastAPI (Python 3.11) + uvicorn + sse-starlette
Persistencia	SQLite vía SQLModel
GPU detection	psutil + pynvml + system_profiler / rocm-smi
Containers	Docker SDK for Python
Native runtime	subprocess.Popen + binarios oficiales de GitHub
Empaquetado	electron-builder + PyInstaller

Motores soportados

Motor	Tipo	Modo nativo	Modo Docker	Auto-descarga modelo
`llamacpp`	local	✅ binarios oficiales	✅	✅ HuggingFace GGUF
`stablediffusion`	local	✅ binarios oficiales (sd.cpp)	—	✅ HuggingFace GGUF/safetensors
`ollama`	local	✅ daemon Ollama	✅	✅ registro Ollama
`vllm`	local	—	✅ (GPU NVIDIA)	✅ HF (en contenedor)
`sglang`	local	—	✅ (GPU NVIDIA)	✅ HF (en contenedor)
`tgi`	local	—	✅ (GPU NVIDIA)	✅ HF (en contenedor)
`openai`	API	n/a	n/a	n/a
`anthropic`	API	n/a	n/a	n/a
`openrouter`	API	n/a	n/a	n/a
`nvidia`	API	n/a	n/a	n/a

Todos los motores locales tienen adaptador completo (build de comando por motor, bootstrap automático y schema de optimización propio). stablediffusion (stable-diffusion.cpp, nativo) es el motor de imagen: sirve un modelo de difusión por su server HTTP en :7861 — no benchmarkea, genera (ver Generación de imagen). vLLM/SGLang/TGI son Docker-only y requieren GPU NVIDIA; el modelo lo descarga el propio contenedor desde HuggingFace (le pasamos el repo id). Las APIs cloud funcionan con tu API key (sólo parámetros de sampling, sin optimización local): OpenAI / OpenRouter / NVIDIA usan el endpoint OpenAI-compatible /v1/chat/completions; Anthropic usa su API nativa (/v1/messages, header x-api-key + anthropic-version, system aparte), no es OpenAI-compatible.
Speculative decoding (DFLASH): vLLM y SGLang aceptan acelerar con un modelo draft block-diffusion (DFLASH, 6-8× sin pérdida de calidad). En Benchmark, con vLLM/SGLang seleccionado, activa DFLASH e indica el modelo draft (p.ej. z-lab/Qwen3.5-35B-A3B-DFlash). SGLang es la ruta oficial; vLLM necesita una build con soporte. Requiere VRAM para el modelo y el draft, así que no entra en GPUs pequeñas.
Estado de verificación: los 5 motores locales (llamacpp, ollama, vllm, sglang, tgi) verificados end-to-end por el runner de producción (bootstrap → arranque → inferencia real con tps>0 → parada sin contenedores colgados) en GPU NVIDIA (RTX 3070, 8 GB). vLLM/SGLang ajustan la fracción de VRAM a la memoria libre real para no fallar en GPUs no vacías.

Optimizaciones aplicadas (llama.cpp)

Por defecto, basadas en core/optimizer.py:

Cuantización óptima: itera de mayor a menor calidad (Q8 → Q2) hasta que cabe
Plan por run (optimizer.plan_llamacpp_run): el contexto máximo y ngl se calculan para el quant que de verdad se ejecuta y la KV efectiva elegida (no para el quant que el optimizer habría elegido) — antes podía dar OOM al correr un quant distinto, o desaprovechar la compresión
Contexto máximo automático con KV-cache exacta de la arquitectura real (n_layer·n_head_kv·head_dim) — captura GQA/MQA
KV-cache compresión (-ctk -ctv): f16 / q8_0 / q4_0 (+ K/V independientes y presets). La KV cuantizada fuerza -fa on (llama.cpp lo exige). ⚠️ q4_0 en K es agresivo y puede degradar/romper la generación en modelos pequeños; q8_0 es el punto dulce
KV en RAM (--no-kv-offload, preset Extremo): libera VRAM y el contexto pasa a limitarlo la RAM
MoE offload (--n-cpu-moe N) para modelos MoE en GPUs pequeñas
Flash Attention (-fa on), mlock + --no-mmap cuando el modelo cabe entero en VRAM
Threads = núcleos físicos · batch-size 2048 + ubatch-size 512
Override total via engine_opts (sin duplicar flags: el optimizer pone la base, tus overrides mandan)

Catálogo de modelos con auto-descarga

backend/data/models.json lista 126 modelos (124 de texto + 2 de imagen por difusión). Los que tienen hf_gguf configurado se auto-descargan desde Hugging Face. Cubre, entre otros:

Llama 3 / 3.1 / 3.2 / 3.3 (1B → 70B), Nemotron, Hermes, Tulu, Dolphin
Qwen 2.5 / 3 (0.5B → 72B), Coder, Math, QwQ 32B (reasoning), MoE 30B-A3B
Gemma 2 y Gemma 3 (1B → 27B)
Mistral 7B, Nemo, Small 3/3.1 24B, Ministral, Codestral, Mixtral (MoE)
Phi 2 / 3 / 3.5 / 4 (+ mini, + MoE)
DeepSeek R1 distills, Coder, Coder-V2-Lite (MoE)
Visión: Qwen2-VL, Qwen2.5-VL, MiniCPM-V
Código: Code Llama, CodeGemma, StarCoder2, Yi-Coder, OpenCoder, Stable Code
Más: Granite (IBM), Falcon3, GLM-4, EXAONE, InternLM, OLMo, Aya/Command-R (Cohere), SmolLM2, SOLAR, Zephyr…

Sin datos inventados. Cada entrada se verifica contra HuggingFace antes de añadirse: el repo GGUF existe, el file_template se deriva de los archivos reales publicados y se comprueba que el Q4_K_M resuelve. La herramienta está en backend/scripts/ (verify_models.py + merge_models.py); ejecútala para ampliar el catálogo de forma segura. Los modelos enormes partidos en shards (-00001-of-000NN.gguf, p.ej. DeepSeek-V3, Llama 4 70B+) también se soportan: el catálogo marca hf_gguf.multipart y la descarga junta todos los shards (llama.cpp carga las hermanas del mismo directorio).

Instalación (desarrollo)

Requisitos

Node.js 20+: https://nodejs.org/
Python 3.11+: https://www.python.org/
uv: curl -LsSf https://astral.sh/uv/install.sh | sh
(Opcional) Docker Desktop si vas a usar motores Docker
(Opcional) Driver NVIDIA si quieres acceleración GPU (la app detecta y descarga la build CUDA)

Arrancar en dev

git clone https://github.com/JoniMartin27/inferbench.git
cd inferbench

# Backend (terminal A)
cd backend
uv venv --python 3.11
.venv\Scripts\activate
uv pip install -e .
uvicorn main:app --reload --port 7777

# Frontend (terminal B)
cd frontend
npm install
npm run electron:dev

Se abre la app en una ventana Electron. La sidebar muestra la salud del backend y navega entre vistas.

Empaquetado

El backend Python se empaqueta como ejecutable con PyInstaller y se embebe como sidecar en el instalador Electron. La app empaquetada no requiere Python en la máquina destino.

# Construir el sidecar
scripts\build-sidecar.ps1     # Windows
bash scripts/build-sidecar.sh # macOS / Linux

# Instalador
cd frontend
npm run electron:build

Salida en frontend/release/:

Windows → InferBench Setup *.exe (NSIS)
macOS → InferBench-*.dmg
Linux → InferBench-*.AppImage

Arquitectura

┌──────────────────────────────────────────────────┐
│  Electron app (React + Tailwind + Recharts)      │
│   Dashboard · Motores · Modelos · Benchmark      │
│   Historial (con comparación) · Serve · Ajustes  │
└──────────────────────┬───────────────────────────┘
                       │ HTTP REST + SSE
┌──────────────────────▼───────────────────────────┐
│  FastAPI backend  (localhost:7777)               │
│   /api/health         · /api/hardware            │
│   /api/engines/*      · /api/models/*            │
│   /api/benchmark/*    · /api/history/*           │
│   /api/optimize       · /api/benchmark/sweep     │
│   /api/serve/*        · /mcp  (servidor MCP)     │
└────┬───────────────────────────────────┬─────────┘
     │                                   │
     │ subprocess.Popen                  │ Docker SDK
     ▼                                   ▼
┌──────────────────┐              ┌──────────────────┐
│  Native runtime  │              │  Docker runtime  │
│  llama-server    │              │  ollama/vllm/...  │
│  (GitHub release)│              │  (Docker images)  │
└──────────────────┘              └──────────────────┘
     │
     ▼
┌──────────────────────────────────────────────────┐
│  GGUF cache: %APPDATA%/InferBench/models/        │
│  (auto-descarga desde Hugging Face)              │
└──────────────────────────────────────────────────┘

Estructura del repo

inferbench/
├── backend/
│   ├── api/             # routers FastAPI
│   ├── core/
│   │   ├── hardware.py        # detección CPU/RAM/GPU (cacheada)
│   │   ├── docker_mgr.py      # Docker SDK wrapper
│   │   ├── native_runtime.py  # subprocess wrapper
│   │   ├── binary_manager.py  # descarga binarios desde GitHub
│   │   ├── model_manager.py   # descarga GGUF desde HF
│   │   ├── local_models.py    # escaneo de GGUFs locales
│   │   ├── gguf_reader.py     # lee metadata GGUF (arch, params reales…)
│   │   ├── compat.py          # cálculos de compatibilidad
│   │   ├── optimizer.py       # config óptima + recomendaciones + by-compression
│   │   ├── benchmark.py       # runner + SSE + scorer de calidad + LLM-judge
│   │   └── models_catalog.py
│   ├── scripts/
│   │   ├── verify_models.py   # verifica repos GGUF contra HF y deriva metadata
│   │   └── merge_models.py    # valida y fusiona modelos nuevos en el catálogo
│   ├── engines/
│   │   ├── base.py            # Engine ABC (native + docker)
│   │   ├── llamacpp.py
│   │   └── registry.py
│   ├── data/
│   │   ├── models.json        # catálogo
│   │   └── prompts.json       # suite benchmark
│   ├── db.py                  # SQLModel
│   ├── main.py
│   └── pyproject.toml
│
├── frontend/
│   ├── electron/
│   │   ├── main.js            # proceso main + sidecar
│   │   └── preload.js
│   └── src/
│       ├── App.jsx            # layout + sidebar
│       ├── api.js             # cliente HTTP + suscripción SSE
│       ├── components/ui.jsx  # primitivas
│       └── views/
│           ├── Dashboard.jsx
│           ├── EnginesView.jsx
│           ├── ModelsView.jsx       # tabla compat + ⚡ optimize
│           ├── BenchmarkView.jsx    # incluye sweep + RunningPanel SSE
│           ├── HistoryView.jsx      # multi-select + comparación
│           └── SettingsView.jsx
│
├── scripts/
│   ├── build-sidecar.ps1
│   └── build-sidecar.sh
└── docker/
    └── docker-compose.yml      # referencia

Suite de prompts

backend/data/prompts.json define 7 prompts representativos. Cada uno tiene un scorer verificable (no F1 de tokens): la calidad mide corrección real. Cubren razonamiento, código, resumen, conocimiento, contexto largo (recuperación sobre ~5k tokens) y visión.

ID	Tarea	Cómo se puntúa	Tokens
`reasoning`	reparto de alquiler (mates multi-paso)	checklist: aparecen 250 / 500 / 750	256
`code`	`merge_intervals` (solo stdlib)	ejecuta el código contra 5 casos → % que pasan	512
`summary`	resumir manteniendo hechos clave	checklist: privacidad / sesgos / energía / regulación / código / traducción	384
`chat`	planetas en orden desde el Sol	checklist: los 8 planetas (ES/EN)	128
`long-context`	recuperar un dato enterrado en un texto de ~5k tokens (needle-in-haystack)	checklist: el código secreto	32
`vision-scene`	describir 3 figuras de 3 colores	checklist: forma×3 + color×3 + conteo	96
`vision-count`	contar objetos	checklist: nº + forma + color	48

Los prompts vision-* solo corren en modelos de visión (con mmproj); para el resto se omiten. Las imágenes tienen ground-truth conocido (data/vision_*.png, generadas por scripts/make_vision_test.py). El prompt code ejecuta la salida del modelo en un subproceso aislado con sandbox (python -I, cwd temporal, timeout, límites de recursos, sin red, sin syscalls destructivas). Activado por defecto; desactívalo con INFERBENCH_CODE_EXEC=0 (entonces el prompt de código se omite, no se puntúa 0).

Rigor estadístico (no una sola muestra)

Cada prompt se mide N veces (3 por defecto, configurable con INFERBENCH_BENCH_ITERS) tras descartar una pasada de warmup que llena los cachés/JIT del motor. Las cifras reportadas son la mediana de esas N muestras, con su desviación estándar — una sola medida (sobre todo de TTFT) era ruido. En llama.cpp el tok/s sale de los timings internos del motor (predicted_per_second / prompt_per_second), no de cronometrar desde el cliente: sin jitter de HTTP por token. Desactiva el warmup con INFERBENCH_BENCH_NO_WARMUP=1.

Métricas medidas por prompt (mediana de N muestras):

TTFT (ms): tiempo al primer token — con su desviación (ttft_std)
decode tok/s: tokens por segundo en la fase de generación — con su desviación (tps_std)
prefill tok/s: velocidad de procesamiento del prompt (medición separada del decode)
VRAM peak (GB): pico durante el run, vía pynvml
RAM peak (GB): pico vía psutil
Calidad (0-100): ver Evaluación de calidad
Coste: solo APIs cloud (calculado de tokens × precio)
n_samples: nº de muestras válidas que respaldan las cifras

Evaluación de calidad

La nota de calidad (0-100) tiene varios modos (TTFT y tok/s siempre son medidas reales del motor):

Modo	Cómo funciona	Cuándo usarlo
Referencia (offline) · default	Compara la respuesta con la de referencia: F1 de tokens recall-weighted + recall exacto de números + stemming por prefijo + penalización de texto degenerado. Python puro, sin GPU/modelo/red	Funciona en cualquier ordenador. Bueno en tareas con respuesta esperada (razonamiento, código, resumen); aproximado en tareas abiertas (chat)
Checklist de atributos · visión y hechos	El prompt define grupos de sinónimos (el ground-truth: formas, colores, conteo…); la nota es la fracción de atributos que aparecen en la respuesta. Casa por límite de palabra + prefijo (acepta morfología, pero "500" no cuenta dentro de "1500"). Robusto a acentos y bilingüe (ES/EN). Sin red	Visión (mide si el modelo vio bien la imagen) y cualquier tarea con hechos verificables (`reasoning`, `summary`, `chat`, `vision-*`)
Ejecución de código · tareas de código	Ejecuta el código generado contra casos de prueba reales (estilo HumanEval) en un subproceso aislado con sandbox (`python -I`, cwd temporal, timeout, rlimits, sin red, sin syscalls destructivas). La nota es el % de casos que pasan. Mide si el código FUNCIONA, no su parecido textual	Tareas de código (`code`). Activado por defecto; `INFERBENCH_CODE_EXEC=0` lo desactiva (omite el prompt, no puntúa 0)
LLM-judge (motor local)	El propio motor puntúa sus respuestas (rúbrica 0-100)	Fiable solo con modelos capaces (≥7-8B); los pequeños (1-3B) colapsan a 0. Juez = modelo evaluado (sesgo)
LLM-judge (API externa)	Un modelo cloud OpenAI-compatible (p.ej. `gpt-4o-mini`) juzga	Lo más fiable e imparcial; requiere API key

El default es offline a propósito para que funcione en máquinas sin GPU ni API. Los prompts con keywords usan el checklist automáticamente (no lo sustituye el LLM-judge, que no ve la imagen). El LLM-judge es la mejora opcional para juicio fiable de tareas abiertas de texto.

Endpoints clave

Método	Ruta	Descripción
GET	`/api/health`	Status + info Docker
GET	`/api/hardware`	CPU, RAM, GPUs
GET	`/api/engines`	Lista motores con runtime availability
POST	`/api/engines/{id}/install`	SSE: descarga binario nativo
POST	`/api/engines/{id}/start`	Arranca motor (auto-instala si falta)
POST	`/api/engines/{id}/stop`	Detiene motor
GET	`/api/models`	Catálogo
GET	`/api/models/local`	GGUFs locales en disco (con params reales de metadata)
GET	`/api/models/compat/all?engine=X`	Compat por modelo
POST	`/api/optimize`	Config óptima
GET	`/api/optimize/recommendations?top=N`	Modelos más potentes ejecutables en tu hardware
GET	`/api/optimize/by-compression?context_len=N`	Modelo más potente que cabe con cada preset de compresión KV
POST	`/api/benchmark/run`	Lanza run, devuelve `run_id`
GET	`/api/benchmark/{run_id}/stream`	SSE de progreso
POST	`/api/benchmark/{run_id}/stop`	Cancela run en curso
POST	`/api/benchmark/sweep`	Lanza N runs con quants distintas
GET	`/api/history`	Lista runs
GET	`/api/history/compare/runs?ids=A,B,C`	Detalle multi-run para comparación
POST	`/api/serve/load`	Empieza a servir un modelo residente (no bloquea: arranca en background)
GET	`/api/serve/status`	Estado del slot servido (fase, modelo, quant, endpoint)
POST	`/api/serve/chat`	Proxy de chat al modelo servido (texto)
POST	`/api/serve/generate`	Genera una imagen con el modelo de imagen servido (409 si no hay modelo de imagen `ready`)
POST	`/api/serve/unload`	Para el motor servido y libera VRAM
—	`/mcp`	Servidor MCP (HTTP streamable) para Claude Desktop / Cursor — ver docs/MCP.md

Cachés (no se redescargan)

Binarios: %APPDATA%\InferBench\binaries\<engine>\ (Windows) o ~/.inferbench/binaries/ (Linux/Mac)
Modelos GGUF: %APPDATA%\InferBench\models\<repo>\<file>.gguf
DB: backend/data/inferbench.sqlite
Logs de motores nativos: %APPDATA%\InferBench\logs\<engine>.log

Estado de hitos

	Hito	Estado
M1	Detección hardware (NVIDIA·AMD·Apple·CPU-only)	✅
M2	Gestor Docker + abstracción `Engine` + llama.cpp	✅
M3	Catálogo modelos + cálculos compat y `max_ctx`	✅
M4	Benchmark + SSE + persistencia SQLite	✅
M5	Frontend Electron + Vite + Tailwind	✅
M6	UI completa (6 vistas)	✅
M7	Panel live SSE	✅
M8	Optimizador automático + botón ⚡	✅
M9	Empaquetado (config)	✅
Bonus	Auto-bootstrap end-to-end (descarga + arranque + bench)	✅
Bonus	Modo nativo sin Docker + descarga de DLLs CUDA	✅
Bonus	Auto-descarga GGUF desde HuggingFace	✅
Bonus	Sweep multi-quant + comparación side-by-side	✅
Bonus	Stop mid-run	✅
Bonus	Catálogo de 126 modelos verificados contra HF + tooling de ampliación	✅
Bonus	Params reales de GGUFs locales desde metadata (independiente del quant)	✅
Bonus	Compresión KV explicada + tabla de modelos más potentes por compresión	✅
Bonus	Calidad offline basada en referencia + LLM-judge (local / API)	✅
Bonus	KV-cache exacta desde metadata (`n_head_kv`/`head_dim`, capta GQA/MQA) en 123/124 modelos de texto del catálogo	✅
Bonus	Visión real (multimodal): descarga `mmproj`, `--mmproj` en llama-server y prompt con imagen real	✅
Bonus	Modo Serve / MCP: sirve un modelo cuantizado óptimo de forma residente y lo expone por MCP (stdio + HTTP) a Claude Desktop / Cursor	✅
Bonus	Generación de imagen local vía stable-diffusion.cpp: sirve un modelo de imagen y genera (`POST /api/serve/generate` + tool MCP `generate_image`)	✅

Pendientes / siguientes pasos

Más cobertura de tests (ya hay 122 en backend/tests/: compat, optimizer, quality, gguf_reader, multimodal, security, api, gpu_safety, keys, lookspan, multipart, speculative, benchmark_rigor, serve, mcp, image_serve)
Soporte de visión en motores Docker (vLLM/SGLang) y multimodal por API (gpt-4o); hoy la visión real corre en llamacpp nativo
Generación de vídeo (fase 2): stable-diffusion.cpp ya soporta Wan2.1/Wan2.2 y LTX; falta integrarlo (hoy solo imagen). Y métricas de generación en el modo Benchmark
Implementar cache-reuse, --prio-batch y resto de flags de tuning de llama.cpp

Documentación complementaria

PROJECT_BRIEF.md — visión, arquitectura, schemas de optimización por motor, fórmulas de compatibilidad
docs/MCP.md — modo Serve / MCP: tools del servidor MCP, transportes stdio/HTTP, config de Claude Desktop / Cursor y troubleshooting
docs/IMAGE.md — generación de imagen vía stable-diffusion.cpp: modelos soportados, requisitos de VRAM, archivos auxiliares de FLUX y troubleshooting
docs/COMMUNITY-ROADMAP.md — roadmap orientado a la comunidad (mejoras priorizadas que pide la gente)
CLAUDE.md — convenciones de desarrollo y plan de hitos M1–M9

Contribuir

Las PRs son bienvenidas — lee CONTRIBUTING.md para el setup, cómo correr lint/tests y las convenciones. Buenos primeros aportes: los adaptadores reales para ollama/vllm/sglang/tgi y más tests de compat.py/optimizer.py. Abre un issue antes de un cambio grande para acordar el enfoque.

El proyecto sigue un Código de conducta.

Seguridad

¿Encontraste una vulnerabilidad? No abras un issue público — sigue SECURITY.md. El proyecto ha pasado una auditoría de seguridad (postura buena; los hallazgos están remediados).

Licencia

InferBench forma parte de Fervon, el estudio que agrupa el portfolio de herramientas open source (Trace, lookspan, claudescope, launchpad y más). La identidad de marca Fervon se está aplicando a la landing — ver la rama feat/fervon-theme.

This server cannot be installed

license - permissive license

quality - not tested

maintenance

How are these scores calculated?

Maintenance

–Maintainers

–Response time

1dRelease cycle

2Releases (12mo)

Commit activity

Resources

GitHub Repository

Need Help?

Related Servers

Related MCP Servers

nexus-mcp-ci
Code Analysis Knowledge & Memory RAG Systems
jaggernaut007
A
license
A
quality
B
maintenance
Unified MCP server combining hybrid search (vector + BM25 + code graph), structural code analysis, and persistent semantic memory. 15 tools, 25+ languages, <350MB RAM, fully local.
Last updated 2026-07-23
10
MIT
tree-sitter-analyzer
Code Analysis Developer Tools
aimasteracc
A
license
A
quality
A
maintenance
An MCP code-intelligence server for AI agents with pre-indexed AST cache, 62 MCP tools, and TOON-compressed output, enabling token-efficient code analysis and project health grading entirely locally.
Last updated 2026-07-29
9
44
MIT
knitbrain
Developer Tools Knowledge & Memory
PDgit12
A
license
A
quality
A
maintenance
Local-first MCP server that gives any AI coding agent per-project memory, workflow intelligence, and always-on, lossless token & context optimization.
Last updated 2026-07-08
37
559
1
MIT
Local AI MCPofficial
AI & Machine Learning Developer Tools
TMHSDigital
A
license
A
quality
A
maintenance
Unified MCP server for managing local model runtimes (Ollama, LM Studio, etc.), enabling provider-agnostic discovery, lifecycle management, hardware-fit checks, and delegated inference.
Last updated 2026-07-19
16
475
Creative Commons Attribution Non Commercial No Derivatives 4.0 International

View all related MCP servers

Related MCP Connectors

Hive Compute
HiveCompute MCP Server — decentralized inference router for AI agents
XMemo
User-owned memory for AI agents, Copilot, Claude, IDEs, CLIs, and chat apps over remote MCP.
microservices.sh
MCP server for AI agents to plan, verify, and deploy Cloudflare-native apps.

View all MCP Connectors

Latest Blog Posts

Who's Calling? MCP Hosts Are an Identity Blind Spot (And the Spec Knows It)
By Om-Shree-0709 on July 25, 2026.
mcp
Agent Identity
OAuth 2.1
Your AI Chatbot Just Exposed Your CEO's Salary to an Intern
By Om-Shree-0709 on July 2, 2026.
Agent Identity
MCP Security
OAuth Delegation
Why MCP Servers Need Execution Sandboxing (And Why Your Current Stack Isn't Enough)
By Om-Shree-0709 on June 30, 2026.
Agentic Ai
Prompt Injection
WebAssembly

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/JoniMartin27/inferbench'

If you have feedback or need assistance with the MCP directory API, please join our Discord server