analyze_morphology
Analyze text morphology: tokenize, lemmatize, and tag parts of speech with UDPipe 2. Supports 961 language models for full-text search, filtering by word type, and passive voice detection.
Instructions
Tokenizuje, lemmatizuje a označuje slovní druhy pomocí UDPipe 2.
Pro každý token vrací **lemma** (základní tvar), **UPOS** (universal POS tag),
**morphological features** (pád, rod, číslo, čas...) a volitelně závislostní
parse (head + deprel) nebo character ranges (offsety do originálu).
UDPipe 2 podporuje **961 modelů** pro téměř všechny jazyky světa.
Auto-detect (default) rozezná: czech, slovak, ukrainian, russian, polish,
german, english, french (via heuristics).
Hodí se pro:
- Fulltextové vyhledávání v právních textech (lemma "soud" matchuje "soudu/soudem/soudy")
- Filtrování podle slovních druhů (jen substantiva, jen verba)
- Detekce pasivních konstrukcí (Voice=Pass)
- Vícejazyčné dokumenty (UA legal aid, EN smlouvy, DE Klage…)
Args:
text: Vstupní text.
model: UDPipe model alias. ``auto`` (default) detekuje jazyk podle markerů.
Explicit: ``czech``, ``slovak``, ``english``, ``ukrainian``, ``russian``,
``polish``, ``german``, ``french``, atd. — 961 modelů celkem.
include_parse: True = vrátí závislostní parse (head, deprel).
include_ranges: True = vrátí ``token_range`` (char offsets do originálu).
Užitečné pro inline highlighting nebo mapování token → text position.
Returns:
``sentences``, ``model``, ``token_count``, ``sentence_count``,
``detected_language`` (jen u auto).
Input Schema
| Name | Required | Description | Default |
|---|---|---|---|
| text | Yes | ||
| model | No | auto | |
| include_parse | No | ||
| include_ranges | No |
Output Schema
| Name | Required | Description | Default |
|---|---|---|---|
No arguments | |||