Herramienta de evaluación comparativa MCP vLLM
Esta es una prueba de concepto sobre cómo utilizar MCP para evaluar de forma interactiva vLLM.
No somos nuevos en benchmarking, lea nuestro blog:
Evaluación comparativa de vLLM
Esta es solo una exploración de posibilidades con MCP.
Uso
Clonar el repositorio
Agreguelo a sus servidores MCP:
{
"mcpServers": {
"mcp-vllm": {
"command": "uv",
"args": [
"run",
"/Path/TO/mcp-vllm-benchmarking-tool/server.py"
]
}
}
}
Entonces puedes indicar un ejemplo como este:
Do a vllm benchmark for this endpoint: http://10.0.101.39:8888
benchmark the following model: deepseek-ai/DeepSeek-R1-Distill-Llama-8B
run the benchmark 3 times with each 32 num prompts, then compare the results, but ignore the first iteration as that is just a warmup.
Related MCP server: MCP Prompt Tester
Hacer:
Debido a algunas salidas aleatorias de vllm, es posible que se indique que encontró un JSON no válido. Aún no lo he investigado.