Disco

Finden Sie neuartige, statistisch validierte Muster in tabellarischen Daten — Merkmalsinteraktionen, Untergruppeneffekte und bedingte Beziehungen, die Korrelationsanalysen und LLMs übersehen.

PyPI License: MIT

Erstellt von Leap Laboratories.

Was es tatsächlich tut

Die meisten Datenanalysen beginnen mit einer Frage. Disco beginnt mit den Daten.

Ohne Verzerrungen oder Annahmen findet es Kombinationen von Merkmalsbedingungen, die Ihre Zielspalte signifikant verändern — Dinge wie „Patienten im Alter von 45–65 Jahren mit niedrigem HDL und hohem CRP haben eine 3× höhere Wiederaufnahmerate“ — ohne dass Sie diese Interaktion vorher hypothetisieren müssen.

Jedes Muster ist:

Auf einem Hold-out-Set validiert — erhöht die Chance auf Generalisierung
FDR-korrigiert — p-Werte enthalten, angepasst für multiples Testen
Gegen akademische Literatur geprüft — um Ihnen zu helfen, zu verstehen, was Sie gefunden haben, und zu identifizieren, ob es neuartig ist.

Die Ausgabe ist strukturiert: Bedingungen, Effektstärken, p-Werte, Zitate und eine Neuheitsklassifizierung für jedes gefundene Muster.

Verwenden Sie es, wenn: „Welche Variablen sind in Bezug auf X am wichtigsten?“, „Gibt es Muster, die wir übersehen?“, „Ich weiß nicht, wo ich mit diesen Daten anfangen soll“, „Ich muss verstehen, wie A und B C beeinflussen“.

Nicht für: Zusammenfassende Statistiken, Visualisierung, Filterung, SQL-Abfragen — verwenden Sie dafür pandas.

Related MCP server: Data Analysis MCP Server

Schnellstart

pip install discovery-engine-api

Holen Sie sich einen API-Schlüssel:

# Step 1: request verification code (no password, no card)
curl -X POST https://disco.leap-labs.com/api/signup \
  -H "Content-Type: application/json" \
  -d '{"email": "you@example.com"}'

# Step 2: submit code from email → get key
curl -X POST https://disco.leap-labs.com/api/signup/verify \
  -H "Content-Type: application/json" \
  -d '{"email": "you@example.com", "code": "123456"}'
# → {"key": "disco_...", "credits": 10, "tier": "free_tier"}

Oder erstellen Sie einen Schlüssel unter disco.leap-labs.com/developers.

Führen Sie Ihre erste Analyse aus:

from discovery import Engine

engine = Engine(api_key="disco_...")
result = await engine.discover(
    file="data.csv",
    target_column="outcome",
)

for pattern in result.patterns:
    if pattern.p_value < 0.05 and pattern.novelty_type == "novel":
        print(f"{pattern.description} (p={pattern.p_value:.4f})")

print(f"Explore: {result.report_url}")

Die Ausführung dauert einige Minuten. discover() fragt automatisch ab und protokolliert den Fortschritt — Warteschlangenposition, geschätzte Wartezeit, aktueller Pipeline-Schritt und ETA. Für Hintergrundausführungen siehe Asynchron ausführen.

→ Vollständige Python SDK-Referenz · Beispiel-Notebook

Was Sie zurückerhalten

Jedes Pattern in result.patterns sieht so aus (echte Ausgabe aus einem Datensatz zu Ernteerträgen):

Pattern(
    description="When humidity is between 72–89% AND wind speed is below 12 km/h, "
                "crop yield increases by 34% above the dataset average",
    conditions=[
        {"type": "continuous", "feature": "humidity_pct",
         "min_value": 72.0, "max_value": 89.0},
        {"type": "continuous", "feature": "wind_speed_kmh",
         "min_value": 0.0, "max_value": 12.0},
    ],
    p_value=0.003,              # FDR-corrected
    novelty_type="novel",
    novelty_explanation="Published studies examine humidity and wind speed as independent "
                        "predictors, but this interaction effect — where low wind amplifies "
                        "the benefit of high humidity within a specific range — has not been "
                        "reported in the literature.",
    citations=[
        {"title": "Effects of relative humidity on cereal crop productivity",
         "authors": ["Zhang, L.", "Wang, H."], "year": "2021",
         "journal": "Journal of Agricultural Science"},
    ],
    target_change_direction="max",
    abs_target_change=0.34,     # 34% increase
    support_count=847,          # rows matching this pattern
    support_percentage=16.9,
)

Wichtige Punkte, die zu beachten sind:

Muster sind Kombinationen von Bedingungen — Luftfeuchtigkeit UND Windgeschwindigkeit zusammen, nicht nur „mehr Luftfeuchtigkeit ist besser“
Spezifische Schwellenwerte — 72–89 %, keine vage Korrelation
Neuartig vs. bestätigend — jedes Muster wird klassifiziert; bestätigende validieren bekannte Wissenschaft, neuartige sind das, wonach Sie gesucht haben
Zitate — zeigt, was bekannt IST, damit Sie sehen können, was wirklich neu ist
report_url verlinkt auf einen interaktiven Webbericht, in dem alle Muster visualisiert sind

Das result.summary liefert einen LLM-generierten narrativen Überblick:

result.summary.overview
# "Disco identified 14 statistically significant patterns. 5 are novel.
#  The strongest driver is a previously unreported interaction between humidity
#  and wind speed at specific thresholds."

result.summary.key_insights
# ["Humidity × low wind speed at 72–89% humidity produces a 34% yield increase — novel.",
#  "Soil nitrogen above 45 mg/kg shows diminishing returns when phosphorus is below 12 mg/kg.",
#  ...]

Wie es funktioniert

Disco ist eine Pipeline, kein Prompt-Engineering über Daten. Es:

Trainiert Machine-Learning-Modelle auf einer Teilmenge Ihrer Daten
Verwendet Interpretierbarkeitstechniken, um gelernte Muster zu extrahieren
Validiert jedes Muster auf den zurückgehaltenen Daten mit FDR-Korrektur (Benjamini-Hochberg)
Überprüft überlebende Muster gegen akademische Literatur mittels semantischer Suche

Sie können dies nicht replizieren, indem Sie pandas-Code schreiben oder ein LLM bitten, sich eine CSV anzusehen. Es findet Strukturen, die hypothesengetriebene Analysen übersehen, weil es nicht mit Hypothesen beginnt.

Vorbereitung Ihrer Daten

Schließen Sie vor der Ausführung Spalten aus, die bedeutungslose Ergebnisse liefern würden. Disco findet statistisch reale Muster — aber wenn die Eingabe Spalten enthält, die definitionsgemäß mit dem Ziel zusammenhängen, sind die Muster tautologisch.

Ausschließen:

Identifikatoren — Zeilen-IDs, UUIDs, Patienten-IDs, Probencodes
Datenleckage — das Ziel umbenannt oder neu formatiert (z. B. diagnosis_text, wenn das Ziel diagnosis_code ist)
Tautologische Spalten — alternative Kodierungen desselben Konstrukts wie das Ziel. Wenn das Ziel serious ist, dann sind serious_outcome, not_serious, death alle Teil derselben Klassifizierung. Wenn das Ziel profit ist, dann setzen sich revenue und cost zusammen daraus zusammen. Wenn das Ziel ein Umfrageindex ist, sind die Unterpunkte tautologisch.

Vollständige Anleitung mit Beispielen: SKILL.md

Parameter

await engine.discover(
    file="data.csv",           # path, Path, or pd.DataFrame
    target_column="outcome",   # column to predict/explain
    analysis_depth=2,          # 2=default, higher=deeper analysis, lower = faster and cheaper
    visibility="public",       # "public" (always free, data and report is published) or "private" (costs credits)
    column_descriptions={      # improves pattern explanations and literature context
        "bmi": "Body mass index",
        "hdl": "HDL cholesterol in mg/dL",
    },
    excluded_columns=["id", "timestamp"],  # see "Preparing your data" above
    use_llms=False,                        # Defaults to False. If True, runs are slower and more expensive, but you get smarter pre-processing, summary page, literature context and novelty assessment. Public runs always use LLMs.
    title="My dataset",
    description="...", # improves pattern explanations and literature context
)

Öffentliche Läufe sind kostenlos, aber die Ergebnisse werden veröffentlicht. Setzen Sie visibility="private" für private Daten — dies kostet Credits.

Asynchron ausführen

Die Ausführung dauert einige Minuten. Für Agenten-Workflows oder Skripte, die andere Arbeiten parallel ausführen:

# Submit without waiting
run = await engine.run_async(file="data.csv", target_column="outcome", wait=False)
print(f"Submitted {run.run_id}, continuing...")

# ... do other things ...

result = await engine.wait_for_completion(run.run_id, timeout=1800)

Für synchrone Skripte und Jupyter-Notebooks:

result = engine.run(file="data.csv", target_column="outcome", wait=True)
# or: pip install discovery-engine-api[jupyter] for notebook compatibility

MCP-Server

Disco ist als MCP-Server verfügbar — keine lokale Installation erforderlich.

{
  "mcpServers": {
    "discovery-engine": {
      "url": "https://disco.leap-labs.com/mcp",
      "env": { "DISCOVERY_API_KEY": "disco_..." }
    }
  }
}

Tools: discovery_list_plans, discovery_estimate, discovery_upload, discovery_analyze, discovery_status, discovery_get_results, discovery_account, discovery_signup, discovery_signup_verify, discovery_login, discovery_login_verify, discovery_add_payment_method, discovery_subscribe, discovery_purchase_credits.

→ Vollständige Agent-Skill-Datei

Preisgestaltung

	Kosten
Öffentliche Läufe	Kostenlos — Ergebnisse und Daten werden veröffentlicht
Private Läufe	Credits variieren je nach Dateigröße und Konfiguration — verwenden Sie `engine.estimate()`
Kostenloser Tarif	10 Credits/Monat, keine Karte erforderlich
Forscher	$49/Monat — 50 Credits
Team	$199/Monat — 200 Credits
Credits	$0,10 pro Credit

Schätzung vor der Ausführung:

estimate = await engine.estimate(file_size_mb=10.5, num_columns=25, analysis_depth=2, visibility="private")
# estimate["cost"]["credits"] → 55
# estimate["account"]["sufficient"] → True/False

Die Kontoverwaltung erfolgt vollständig programmatisch — fügen Sie Zahlungsmethoden hinzu, abonnieren Sie Pläne und kaufen Sie Credits über das SDK oder die REST-API. Siehe Python SDK-Referenz oder SKILL.md.

Erwartetes Datenformat

Disco erwartet eine flache Tabelle — Spalten für Merkmale, Zeilen für Stichproben.

| patient_id | age | bmi  | smoker | outcome |
|------------|-----|------|--------|---------|
| 001        | 52  | 28.3 | yes    | 1       |
| 002        | 34  | 22.1 | no     | 0       |
| ...        | ... | ...  | ...    | ...     |

Eine Zeile pro Beobachtung — ein Patient, eine Probe, eine Transaktion, eine Messung usw.
Eine Spalte pro Merkmal — numerisch, kategorisch, Datum/Uhrzeit oder Freitext sind alle in Ordnung
Eine Zielspalte — das Ergebnis, das Sie verstehen möchten. Muss mindestens 2 verschiedene Werte haben.
Fehlende Werte sind OK — Disco behandelt sie automatisch. Löschen Sie keine Zeilen und imputieren Sie nicht im Voraus.
Kein Pivoting erforderlich — wenn Ihre Daten bereits in einer flachen Tabelle vorliegen, sind sie bereit.

Unterstützte Formate: CSV, TSV, Excel (.xlsx), JSON, Parquet, ARFF, Feather. Max. 5 GB.

Nicht unterstützt: Bilder, reine Textdokumente, verschachteltes/hierarchisches JSON, Excel mit mehreren Tabellenblättern (verwenden Sie das erste Blatt oder exportieren Sie als CSV)

Vergleich mit anderen Tools

Ziel	Tool
Zusammenfassende Statistiken, Datenqualität	ydata-profiling, sweetviz
Prädiktives Modell	AutoML (auto-sklearn, TPOT, H2O)
Schnelle Korrelationen	pandas, seaborn
Beantwortung einer spezifischen Frage zu Daten	ChatGPT, Claude
Finden, wonach Sie nicht zu suchen wissen	Disco

Disco ist kein Ersatz für EDA oder AutoML — es findet die Muster, die diese Tools übersehen. Wir haben 18 Datenanalysetools getestet an einem Datensatz mit bekannten Ground-Truth-Mustern. Die meisten berichteten fälschlicherweise Ergebnisse. Disco war das einzige, das jedes Muster fand.

Disco

Disco

Was es tatsächlich tut

Schnellstart

Was Sie zurückerhalten

Wie es funktioniert

Vorbereitung Ihrer Daten

Parameter

Asynchron ausführen

MCP-Server

Preisgestaltung

Erwartetes Datenformat

Vergleich mit anderen Tools

Links

Resources

Tools

Latest Blog Posts

MCP directory API