GITBOOK-154: No subject

pull/100/head
vincehe 2024-05-23 09:20:15 +00:00 committed by gitbook-bot
parent 0bf8c0d335
commit 9bc3fd8637
No known key found for this signature in database
GPG Key ID: 07D2180C7B12D0FF
1 changed files with 18 additions and 1 deletions

View File

@ -62,8 +62,25 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空
* 替换连续的空格、换行符和制表符
* 删除所有 URL 和电子邮件地址
### ETL 可选配置
在 RAG 的生产级应用中,为了获得更好的数据召回效果,需要对多源数据进行预处理和清洗,即 ETL _extract, transform, load_。为了增强非结构化/半结构化数据的预处理能力Dify 支持了可选的 ETL 方案:**Dify ETL** 和[ ](https://docs.unstructured.io/welcome)**Unstructured ETL** 。
Unstructured 能够高效地提取并转换您的数据为干净的数据用于后续的步骤,具体信息可参考 [Unstructured 官网](https://unstructured.io/)。
Dify 各版本的 ETL 方案选择:
* SaaS 版不可选,默认直接使用 Unstructured ETL
* 社区版可选,默认使用 Dify ETL ,可通过[环境变量](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi)开启 Unstructured ETL
提取文件格式支持上的差异如下:
| DIFY Extractor | Unstructured Extractor |
| ---------------------------------------------- | ------------------------------------------------------------------------ |
| txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv | txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv、eml、msg、pptx、ppt、xml、epub |
{% hint style="info" %}
Dify 提供了第一方的基础数据清洗方案,同时支持接入[ unstructured.io](https://docs.unstructured.io/welcome) 作为替代清洗方案:[配置说明](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi)
不同的 ETL 方案在文件提取效果的方面也会存在差异,想了解更多关于 Unstructured ETL 的数据处理方式,请参考[官方文档](https://docs.unstructured.io/open-source/core-functionality/partitioning)。
{% endhint %}
### 索引方式