rechunk_document
Retrieves a PDF from MinIO, re-extracts text, splits into new chunks, generates fresh embeddings, and removes old chunks and embeddings.
Instructions
重新分块文档
从 MinIO 获取 PDF,重新提取文本并分块,然后生成新的 embeddings。 会删除旧的 chunks 和 embeddings。
Args: doc_id: 文档的唯一标识符 strategy: 分块策略,目前支持 "page_v1"(按页分块) force: 是否强制执行(即使已有 chunks),默认 False
Returns: 处理结果,包含新的 chunk 数量
Input Schema
| Name | Required | Description | Default |
|---|---|---|---|
| doc_id | Yes | ||
| strategy | No | page_v1 | |
| force | No |
Output Schema
| Name | Required | Description | Default |
|---|---|---|---|
No arguments | |||