From 9bc3fd86374f1653368657e5688833fb26efee52 Mon Sep 17 00:00:00 2001 From: vincehe Date: Thu, 23 May 2024 09:20:15 +0000 Subject: [PATCH] GITBOOK-154: No subject --- ...ng-jian-zhi-shi-ku-shang-chuan-wen-dang.md | 19 ++++++++++++++++++- 1 file changed, 18 insertions(+), 1 deletion(-) diff --git a/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md b/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md index 5c7c2b0..e6fed0b 100644 --- a/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md +++ b/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md @@ -62,8 +62,25 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空 * 替换连续的空格、换行符和制表符 * 删除所有 URL 和电子邮件地址 +### ETL 可选配置 + +在 RAG 的生产级应用中,为了获得更好的数据召回效果,需要对多源数据进行预处理和清洗,即 ETL (_extract, transform, load_)。为了增强非结构化/半结构化数据的预处理能力,Dify 支持了可选的 ETL 方案:**Dify ETL** 和[ ](https://docs.unstructured.io/welcome)**Unstructured ETL** 。 + +Unstructured 能够高效地提取并转换您的数据为干净的数据用于后续的步骤,具体信息可参考 [Unstructured 官网](https://unstructured.io/)。 + +Dify 各版本的 ETL 方案选择: + +* SaaS 版不可选,默认直接使用 Unstructured ETL +* 社区版可选,默认使用 Dify ETL ,可通过[环境变量](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi)开启 Unstructured ETL + +提取文件格式支持上的差异如下: + +| DIFY Extractor | Unstructured Extractor | +| ---------------------------------------------- | ------------------------------------------------------------------------ | +| txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv | txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv、eml、msg、pptx、ppt、xml、epub | + {% hint style="info" %} -Dify 提供了第一方的基础数据清洗方案,同时支持接入[ unstructured.io](https://docs.unstructured.io/welcome) 作为替代清洗方案:[配置说明](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi) +不同的 ETL 方案在文件提取效果的方面也会存在差异,想了解更多关于 Unstructured ETL 的数据处理方式,请参考[官方文档](https://docs.unstructured.io/open-source/core-functionality/partitioning)。 {% endhint %} ### 索引方式