GITBOOK-160: No subject

pull/100/head
vincehe 2024-05-24 04:03:27 +00:00 committed by gitbook-bot
parent 8e1c821084
commit 54076bdcbd
No known key found for this signature in database
GPG Key ID: 07D2180C7B12D0FF
5 changed files with 11 additions and 11 deletions

View File

@ -32,8 +32,8 @@
* [提示词编排](guides/application-design/prompt-engineering/README.md)
* [提示词专家模式(已下线)](guides/application-design/prompt-engineering/prompt-engineering-1/README.md)
* [提示词初始模版参考](guides/application-design/prompt-engineering/prompt-engineering-1/prompt-engineering-template.md)
* [应用附加功能](guides/application-design/application\_feature/README.md)
* [敏感内容审查](guides/application-design/application\_feature/moderation-tool.md)
* [应用附加功能](guides/application-design/ying-yong-gong-ju-xiang/README.md)
* [敏感内容审查](guides/application-design/ying-yong-gong-ju-xiang/moderation-tool.md)
* [工作流](guides/workflow/README.md)
* [基本介绍](guides/workflow/introduce.md)
* [关键概念](guides/workflow/key\_concept.md)

View File

@ -1,3 +0,0 @@
# 应用工具箱
🚧 维护中

View File

@ -0,0 +1,3 @@
# 应用附加功能
🚧 维护中

View File

@ -31,7 +31,7 @@
* 单文档的上传大小限制为 15MB
* 单次批量上传文件个数上限为 20 个;
* SaaS 版本的订阅计划限定了**批量上传个数、文档上传总数、向量存储**
* SaaS 版本的不同[订阅计划](https://dify.ai/pricing)限定了**批量上传个数、文档上传总数、向量存储**
### 3 分段与清洗
@ -63,18 +63,18 @@
### 4 ETL 可选配置
在 RAG 的生产级应用中,为了获得更好的数据召回效果,需要对多源数据进行预处理和清洗,即 ETL _extract, transform, load_。为了增强非结构化/半结构化数据的预处理能力Dify 支持了可选的 ETL 方案:**Dify ETL** 和[ ](https://docs.unstructured.io/welcome)**Unstructured ETL** 。
在 RAG 的生产级应用中,为了获得更好的数据召回效果,需要对多源数据进行预处理和清洗,即 ETL _extract, transform, load_。为了增强非结构化/半结构化数据的预处理能力Dify 支持了可选的 ETL 方案:**Dify ETL** 和[ ](https://docs.unstructured.io/welcome)[**Unstructured ETL** ](https://unstructured.io/)
Unstructured 能够高效地提取并转换您的数据为干净的数据用于后续的步骤,具体信息可参考 [Unstructured 官网](https://unstructured.io/)
> Unstructured 能够高效地提取并转换您的数据为干净的数据用于后续的步骤。
Dify 各版本的 ETL 方案选择:
* SaaS 版不可选,默认使用 Unstructured ETL
* 社区版可选,默认使用 Dify ETL ,可通过[环境变量](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi)开启 Unstructured ETL
提取文件格式支持上的差异如下
文件解析支持格式的差异:
| DIFY Extractor | Unstructured Extractor |
| DIFY ETL | Unstructured ETL |
| ---------------------------------------------- | ------------------------------------------------------------------------ |
| txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv | txt、markdown、md、pdf、html、htm、xlsx、xls、docx、csv、eml、msg、pptx、ppt、xml、epub |
@ -92,7 +92,7 @@ Dify 各版本的 ETL 方案选择:
**经济模式**:会使用关键词索引方式,降低了准确度但无需花费 Token。
**Q\&A 模式(仅社区版支持):**Q\&A 分段模式功能与上述普通的「Q to P」问题匹配文本段落匹配模式不同它是采用「Q to Q」问题匹配问题匹配工作在文档经过分段后经过总结为每一个分段生成 Q\&A 匹配对,当用户提问时,系统会找出与之最相似的问题,然后返回对应的分段作为答案。这种方式更加精确,因为它直接针对用户问题进行匹配,可以更准确地获取用户真正需要的信息。
**Q\&A 模式(仅社区版支持):**Q\&A 分段模式功能与上述普通的「Q to P」问题匹配文本段落匹配模式不同它是采用「Q to Q」问题匹配问题匹配工作在文档经过分段后经过总结为每一个分段生成 Q\&A 匹配对,当用户提问时,系统会找出与之最相似的问题,然后返回对应的分段作为答案。这种方式更加精确,因为它直接针对用户问题进行匹配,可以更准确地获取用户真正需要的信息。
在知识库上传文档时系统将对文本进行分段使得用户的提问输入能匹配到相关的文本段落Q to P最后输出结果。