learn_document
Process documents in 25+ formats with semantic chunking and add them to a knowledge base for AI retrieval.
Instructions
使用高级非结构化处理技术(包含真正的语义分块)读取和处理文档文件,并将其添加到知识库。 当您想通过智能处理文档文件来训练人工智能时,可以使用此功能。
支持的文件类型:PDF、DOCX、PPTX、XLSX、TXT、HTML、CSV、JSON、XML、ODT、ODP、ODS、RTF、 图像(PNG、JPG、TIFF、带 OCR 的 BMP)、电子邮件(EML、MSG)以及超过 25 种格式。
高级功能:
基于文档结构(标题、章节、列表)的 REAL 语义分块
智能文档结构保存(标题、列表、表格)
自动去噪(页眉、页脚、无关内容)
结构化元数据提取
适用于任何文档类型的强大回退系统
通过语义边界增强上下文保存
使用示例:
处理布局复杂的研究论文或文章
从包含表格和列表的报告或手册中添加内容
从带格式的电子表格导入数据
将演示文稿转换为可搜索的知识
使用 OCR 处理扫描文档
文档将通过 REAL 语义分块进行智能处理,并与增强的元数据一起存储。
将保存处理后文档的副本以供验证。
参数: file_path:要处理的文档文件的绝对路径或相对路径。
Input Schema
| Name | Required | Description | Default |
|---|---|---|---|
| file_path | Yes |
Output Schema
| Name | Required | Description | Default |
|---|---|---|---|
| result | Yes |