whichmodel-mcp

Ein Modell-Routing-Berater für autonome Agenten – erhalten Sie kostenoptimierte LLM-Empfehlungen via MCP.

whichmodel.dev verfolgt Preise und Fähigkeiten von über 100 LLM-Modellen und wird alle 4 Stunden aktualisiert. Dieser MCP-Server stellt diese Daten bereit, damit KI-Agenten für jede Aufgabe das richtige Modell zum besten Preis auswählen können.

MCP-Endpunkt

https://whichmodel.dev/mcp

Transport: Streamable HTTP (MCP-Spezifikation 2025-03-26)

Schnellstart

Fügen Sie dies Ihrer MCP-Client-Konfiguration hinzu:

{
  "mcpServers": {
    "whichmodel": {
      "url": "https://whichmodel.dev/mcp"
    }
  }
}

Kein API-Schlüssel erforderlich. Keine Installation notwendig.

Stdio (lokale Clients)

Für MCP-Clients, die den Stdio-Transport verwenden (Claude Desktop, Cursor, etc.):

{
  "mcpServers": {
    "whichmodel": {
      "command": "npx",
      "args": ["-y", "whichmodel-mcp"]
    }
  }
}

Dies führt einen schlanken lokalen Proxy aus, der Anfragen an den Remote-Server weiterleitet.

Tools

`recommend_model`

Erhalten Sie eine kostenoptimierte Modell-Empfehlung für einen spezifischen Aufgabentyp, Komplexität und Budget.

Parameter	Typ	Beschreibung
`task_type`	enum (erforderlich)	`chat`, `code_generation`, `code_review`, `summarisation`, `translation`, `data_extraction`, `tool_calling`, `creative_writing`, `research`, `classification`, `embedding`, `vision`, `reasoning`
`complexity`	`low`	`medium`	`high`	Aufgabenkomplexität (Standard: `medium`)
`estimated_input_tokens`	number	Erwartete Eingabegröße in Token
`estimated_output_tokens`	number	Erwartete Ausgabegröße in Token
`budget_per_call`	number	Maximales Budget in USD pro Aufruf
`requirements`	object	Anforderungskriterien: `tool_calling`, `json_output`, `streaming`, `context_window_min`, `providers_include`, `providers_exclude`

Gibt zurück: empfohlenes Modell, Alternative, Budget-Option, Kostenschätzung und Begründung.

`compare_models`

Direkter Vergleich von 2–5 Modellen mit optionalen Volumen-Kostenprojektionen.

Parameter	Typ	Beschreibung
`models`	string[] (erforderlich)	Modell-IDs, z. B. `[anthropic/claude-sonnet-4, openai/gpt-4.1]`
`task_type`	enum	Kontext für den Vergleich
`volume`	object	`calls_per_day`, `avg_input_tokens`, `avg_output_tokens` für tägliche/monatliche Kostenprojektionen

Gibt zurück: Preise, Fähigkeiten, Qualitätsstufen und projizierte Kosten pro Modell.

`get_pricing`

Abfrage von Rohpreisdaten mit Filtern nach Modell, Anbieter, Preisobergrenze und Fähigkeiten.

Parameter	Typ	Beschreibung
`model_id`	string	Spezifische Modell-ID
`provider`	string	Filtern nach Anbieter, z. B. `anthropic`
`max_input_price`	number	Maximaler Eingabepreis pro Million Token (USD)
`capabilities`	string[]	Erforderliche Fähigkeiten: `tool_calling`, `json_output`, `streaming`, `vision`
`min_context_window`	number	Minimales Kontextfenster in Token
`limit`	number	Maximale Ergebnisse (1–100, Standard 20)

`check_price_changes`

Sehen Sie, welche Modellpreise sich seit einem bestimmten Datum geändert haben.

Parameter	Typ	Beschreibung
`since`	string (erforderlich)	ISO-Datum, z. B. `2026-04-01`
`model_id`	string	Auf ein spezifisches Modell filtern
`provider`	string	Auf einen spezifischen Anbieter filtern

Gibt zurück: Preiserhöhungen, Preissenkungen, neue Modelle und Abkündigungen.

Agenten-Integration

WhichModel ist darauf ausgelegt, ein Standard-Tool in Pipelines autonomer Agenten zu sein. Fügen Sie es jedem Agenten hinzu, damit er automatisch für jede Teilaufgabe das richtige Modell zum richtigen Preis auswählen kann.

System-Prompt (Kopieren und Einfügen)

Fügen Sie diesen Block zum System-Prompt Ihres Agenten hinzu:

You have access to the WhichModel MCP server for cost-aware model selection.

Before calling any LLM for a subtask, use recommend_model to pick the right model:

  recommend_model({
    task_type: "code_generation",   // chat | code_generation | summarisation | reasoning | ...
    complexity: "medium",           // low | medium | high
    estimated_input_tokens: 2000,   // optional
    estimated_output_tokens: 500,   // optional
    budget_per_call: 0.01,          // optional hard cap in USD
    requirements: {
      tool_calling: true,           // if the subtask needs tool use
    }
  })

Use the returned recommendation.model_id. The response includes cost_estimate and
reasoning so you can log why each model was chosen.

Prompt-Vorlagen via MCP

Der Server stellt integrierte Prompt-Vorlagen bereit, die Sie über prompts/get abrufen können:

Prompt-Name	Anwendungsfall
`cost-aware-agent`	Vollständiger System-Prompt-Block für kostenbewusste Modellauswahl
`task-router-snippet`	Minimales Snippet zum Hinzufügen zu einem bestehenden System-Prompt
`budget-constrained-agent`	Harte Kostenobergrenze pro Aufruf (übergeben Sie das Argument `budget_usd`)

Programmgesteuert abrufen:

{ "method": "prompts/get", "params": { "name": "cost-aware-agent" } }

Framework-Integrationen

LangChain: langchain-whichmodel — WhichModelRouter-Chain
Haystack: whichmodel-haystack — WhichModelRouter-Komponente

Datenaktualität

Preisdaten werden alle 4 Stunden von OpenRouter aktualisiert. Jede Antwort enthält einen data_freshness-Zeitstempel, damit Sie wissen, wie aktuell die Daten sind.

Whichmodel-mcp