Disco
Disco
Finden Sie neuartige, statistisch validierte Muster in tabellarischen Daten — Merkmalsinteraktionen, Untergruppeneffekte und bedingte Beziehungen, die Korrelationsanalysen und LLMs übersehen.
Erstellt von Leap Laboratories.
Was es tatsächlich tut
Die meisten Datenanalysen beginnen mit einer Frage. Disco beginnt mit den Daten.
Ohne Verzerrungen oder Annahmen findet es Kombinationen von Merkmalsbedingungen, die Ihre Zielspalte signifikant verändern — Dinge wie „Patienten im Alter von 45–65 Jahren mit niedrigem HDL und hohem CRP haben eine 3× höhere Wiederaufnahmerate“ — ohne dass Sie diese Interaktion vorher hypothetisieren müssen.
Jedes Muster ist:
Auf einem Hold-out-Set validiert — erhöht die Chance auf Generalisierung
FDR-korrigiert — p-Werte enthalten, angepasst für multiples Testen
Gegen akademische Literatur geprüft — um Ihnen zu helfen, zu verstehen, was Sie gefunden haben, und zu identifizieren, ob es neuartig ist.
Die Ausgabe ist strukturiert: Bedingungen, Effektstärken, p-Werte, Zitate und eine Neuheitsklassifizierung für jedes gefundene Muster.
Verwenden Sie es, wenn: „Welche Variablen sind in Bezug auf X am wichtigsten?“, „Gibt es Muster, die wir übersehen?“, „Ich weiß nicht, wo ich mit diesen Daten anfangen soll“, „Ich muss verstehen, wie A und B C beeinflussen“.
Nicht für: Zusammenfassende Statistiken, Visualisierung, Filterung, SQL-Abfragen — verwenden Sie dafür pandas.
Related MCP server: Data Analysis MCP Server
Schnellstart
pip install discovery-engine-apiHolen Sie sich einen API-Schlüssel:
# Step 1: request verification code (no password, no card)
curl -X POST https://disco.leap-labs.com/api/signup \
-H "Content-Type: application/json" \
-d '{"email": "you@example.com"}'
# Step 2: submit code from email → get key
curl -X POST https://disco.leap-labs.com/api/signup/verify \
-H "Content-Type: application/json" \
-d '{"email": "you@example.com", "code": "123456"}'
# → {"key": "disco_...", "credits": 10, "tier": "free_tier"}Oder erstellen Sie einen Schlüssel unter disco.leap-labs.com/developers.
Führen Sie Ihre erste Analyse aus:
from discovery import Engine
engine = Engine(api_key="disco_...")
result = await engine.discover(
file="data.csv",
target_column="outcome",
)
for pattern in result.patterns:
if pattern.p_value < 0.05 and pattern.novelty_type == "novel":
print(f"{pattern.description} (p={pattern.p_value:.4f})")
print(f"Explore: {result.report_url}")Die Ausführung dauert einige Minuten. discover() fragt automatisch ab und protokolliert den Fortschritt — Warteschlangenposition, geschätzte Wartezeit, aktueller Pipeline-Schritt und ETA. Für Hintergrundausführungen siehe Asynchron ausführen.
→ Vollständige Python SDK-Referenz · Beispiel-Notebook
Was Sie zurückerhalten
Jedes Pattern in result.patterns sieht so aus (echte Ausgabe aus einem Datensatz zu Ernteerträgen):
Pattern(
description="When humidity is between 72–89% AND wind speed is below 12 km/h, "
"crop yield increases by 34% above the dataset average",
conditions=[
{"type": "continuous", "feature": "humidity_pct",
"min_value": 72.0, "max_value": 89.0},
{"type": "continuous", "feature": "wind_speed_kmh",
"min_value": 0.0, "max_value": 12.0},
],
p_value=0.003, # FDR-corrected
novelty_type="novel",
novelty_explanation="Published studies examine humidity and wind speed as independent "
"predictors, but this interaction effect — where low wind amplifies "
"the benefit of high humidity within a specific range — has not been "
"reported in the literature.",
citations=[
{"title": "Effects of relative humidity on cereal crop productivity",
"authors": ["Zhang, L.", "Wang, H."], "year": "2021",
"journal": "Journal of Agricultural Science"},
],
target_change_direction="max",
abs_target_change=0.34, # 34% increase
support_count=847, # rows matching this pattern
support_percentage=16.9,
)Wichtige Punkte, die zu beachten sind:
Muster sind Kombinationen von Bedingungen — Luftfeuchtigkeit UND Windgeschwindigkeit zusammen, nicht nur „mehr Luftfeuchtigkeit ist besser“
Spezifische Schwellenwerte — 72–89 %, keine vage Korrelation
Neuartig vs. bestätigend — jedes Muster wird klassifiziert; bestätigende validieren bekannte Wissenschaft, neuartige sind das, wonach Sie gesucht haben
Zitate — zeigt, was bekannt IST, damit Sie sehen können, was wirklich neu ist
report_urlverlinkt auf einen interaktiven Webbericht, in dem alle Muster visualisiert sind
Das result.summary liefert einen LLM-generierten narrativen Überblick:
result.summary.overview
# "Disco identified 14 statistically significant patterns. 5 are novel.
# The strongest driver is a previously unreported interaction between humidity
# and wind speed at specific thresholds."
result.summary.key_insights
# ["Humidity × low wind speed at 72–89% humidity produces a 34% yield increase — novel.",
# "Soil nitrogen above 45 mg/kg shows diminishing returns when phosphorus is below 12 mg/kg.",
# ...]Wie es funktioniert
Disco ist eine Pipeline, kein Prompt-Engineering über Daten. Es:
Trainiert Machine-Learning-Modelle auf einer Teilmenge Ihrer Daten
Verwendet Interpretierbarkeitstechniken, um gelernte Muster zu extrahieren
Validiert jedes Muster auf den zurückgehaltenen Daten mit FDR-Korrektur (Benjamini-Hochberg)
Überprüft überlebende Muster gegen akademische Literatur mittels semantischer Suche
Sie können dies nicht replizieren, indem Sie pandas-Code schreiben oder ein LLM bitten, sich eine CSV anzusehen. Es findet Strukturen, die hypothesengetriebene Analysen übersehen, weil es nicht mit Hypothesen beginnt.
Vorbereitung Ihrer Daten
Schließen Sie vor der Ausführung Spalten aus, die bedeutungslose Ergebnisse liefern würden. Disco findet statistisch reale Muster — aber wenn die Eingabe Spalten enthält, die definitionsgemäß mit dem Ziel zusammenhängen, sind die Muster tautologisch.
Ausschließen:
Identifikatoren — Zeilen-IDs, UUIDs, Patienten-IDs, Probencodes
Datenleckage — das Ziel umbenannt oder neu formatiert (z. B.
diagnosis_text, wenn das Zieldiagnosis_codeist)Tautologische Spalten — alternative Kodierungen desselben Konstrukts wie das Ziel. Wenn das Ziel
seriousist, dann sindserious_outcome,not_serious,deathalle Teil derselben Klassifizierung. Wenn das Zielprofitist, dann setzen sichrevenueundcostzusammen daraus zusammen. Wenn das Ziel ein Umfrageindex ist, sind die Unterpunkte tautologisch.
Vollständige Anleitung mit Beispielen: SKILL.md
Parameter
await engine.discover(
file="data.csv", # path, Path, or pd.DataFrame
target_column="outcome", # column to predict/explain
analysis_depth=2, # 2=default, higher=deeper analysis, lower = faster and cheaper
visibility="public", # "public" (always free, data and report is published) or "private" (costs credits)
column_descriptions={ # improves pattern explanations and literature context
"bmi": "Body mass index",
"hdl": "HDL cholesterol in mg/dL",
},
excluded_columns=["id", "timestamp"], # see "Preparing your data" above
use_llms=False, # Defaults to False. If True, runs are slower and more expensive, but you get smarter pre-processing, summary page, literature context and novelty assessment. Public runs always use LLMs.
title="My dataset",
description="...", # improves pattern explanations and literature context
)Öffentliche Läufe sind kostenlos, aber die Ergebnisse werden veröffentlicht. Setzen Sie
visibility="private"für private Daten — dies kostet Credits.
Asynchron ausführen
Die Ausführung dauert einige Minuten. Für Agenten-Workflows oder Skripte, die andere Arbeiten parallel ausführen:
# Submit without waiting
run = await engine.run_async(file="data.csv", target_column="outcome", wait=False)
print(f"Submitted {run.run_id}, continuing...")
# ... do other things ...
result = await engine.wait_for_completion(run.run_id, timeout=1800)Für synchrone Skripte und Jupyter-Notebooks:
result = engine.run(file="data.csv", target_column="outcome", wait=True)
# or: pip install discovery-engine-api[jupyter] for notebook compatibilityMCP-Server
Disco ist als MCP-Server verfügbar — keine lokale Installation erforderlich.
{
"mcpServers": {
"discovery-engine": {
"url": "https://disco.leap-labs.com/mcp",
"env": { "DISCOVERY_API_KEY": "disco_..." }
}
}
}Tools: discovery_list_plans, discovery_estimate, discovery_upload, discovery_analyze, discovery_status, discovery_get_results, discovery_account, discovery_signup, discovery_signup_verify, discovery_login, discovery_login_verify, discovery_add_payment_method, discovery_subscribe, discovery_purchase_credits.
→ Vollständige Agent-Skill-Datei
Preisgestaltung
Kosten | |
Öffentliche Läufe | Kostenlos — Ergebnisse und Daten werden veröffentlicht |
Private Läufe | Credits variieren je nach Dateigröße und Konfiguration — verwenden Sie |
Kostenloser Tarif | 10 Credits/Monat, keine Karte erforderlich |
Forscher | $49/Monat — 50 Credits |
Team | $199/Monat — 200 Credits |
Credits | $0,10 pro Credit |
Schätzung vor der Ausführung:
estimate = await engine.estimate(file_size_mb=10.5, num_columns=25, analysis_depth=2, visibility="private")
# estimate["cost"]["credits"] → 55
# estimate["account"]["sufficient"] → True/FalseDie Kontoverwaltung erfolgt vollständig programmatisch — fügen Sie Zahlungsmethoden hinzu, abonnieren Sie Pläne und kaufen Sie Credits über das SDK oder die REST-API. Siehe Python SDK-Referenz oder SKILL.md.
Erwartetes Datenformat
Disco erwartet eine flache Tabelle — Spalten für Merkmale, Zeilen für Stichproben.
| patient_id | age | bmi | smoker | outcome |
|------------|-----|------|--------|---------|
| 001 | 52 | 28.3 | yes | 1 |
| 002 | 34 | 22.1 | no | 0 |
| ... | ... | ... | ... | ... |Eine Zeile pro Beobachtung — ein Patient, eine Probe, eine Transaktion, eine Messung usw.
Eine Spalte pro Merkmal — numerisch, kategorisch, Datum/Uhrzeit oder Freitext sind alle in Ordnung
Eine Zielspalte — das Ergebnis, das Sie verstehen möchten. Muss mindestens 2 verschiedene Werte haben.
Fehlende Werte sind OK — Disco behandelt sie automatisch. Löschen Sie keine Zeilen und imputieren Sie nicht im Voraus.
Kein Pivoting erforderlich — wenn Ihre Daten bereits in einer flachen Tabelle vorliegen, sind sie bereit.
Unterstützte Formate: CSV, TSV, Excel (.xlsx), JSON, Parquet, ARFF, Feather. Max. 5 GB.
Nicht unterstützt: Bilder, reine Textdokumente, verschachteltes/hierarchisches JSON, Excel mit mehreren Tabellenblättern (verwenden Sie das erste Blatt oder exportieren Sie als CSV)
Vergleich mit anderen Tools
Ziel | Tool |
Zusammenfassende Statistiken, Datenqualität | ydata-profiling, sweetviz |
Prädiktives Modell | AutoML (auto-sklearn, TPOT, H2O) |
Schnelle Korrelationen | pandas, seaborn |
Beantwortung einer spezifischen Frage zu Daten | ChatGPT, Claude |
Finden, wonach Sie nicht zu suchen wissen | Disco |
Disco ist kein Ersatz für EDA oder AutoML — es findet die Muster, die diese Tools übersehen. Wir haben 18 Datenanalysetools getestet an einem Datensatz mit bekannten Ground-Truth-Mustern. Die meisten berichteten fälschlicherweise Ergebnisse. Disco war das einzige, das jedes Muster fand.
Links
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/leap-laboratories/discovery-engine'
If you have feedback or need assistance with the MCP directory API, please join our Discord server