GITBOOK-141: No subject

2024-05-22 11:57:57 +00:00 · 2024-05-22 11:57:57 +00:00 · b037cd5671
parent 9a270d22bd
commit b037cd5671
1 changed files with 8 additions and 2 deletions
--- a/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md
+++ b/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md
@ -38,9 +38,11 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空

 ### 分段与清洗

-大语言模型存在有限的上下文窗口，通常需要将整段文本进行分段处理后，将与用户问题关联度最高的几个段落召回，即分段 TopK 召回模式。此外，在用户问题与文本分段进行语义匹配时，合适的分段大小将有助于匹配关联性最高的文本内容，减少信息噪音。
+**分段**：大语言模型存在有限的上下文窗口，通常需要将整段文本进行分段处理后，将与用户问题关联度最高的几个段落召回，即分段 TopK 召回模式。此外，在用户问题与文本分段进行语义匹配时，合适的分段大小将有助于匹配关联性最高的文本内容，减少信息噪音。

-分段与清洗支持两种策略
+**清洗：**为了保证文本召回的效果，通常需要在将数据传入模型之前对其进行清理。例如，如果输出中存在不需要的内容，可能会影响问题回复的质量。为了帮助用户解决这个问题， Dify 提供了多种清洗方法，可以帮助用户在将输出发送到下游应用程序之前对其进行清理。清洗步骤在分段之前。
+
+分段与清洗支持两种配置策略

 * 自动模式（即将下线）
 * 自定义模式
@ -60,6 +62,10 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空
 * 替换连续的空格、换行符和制表符
 * 删除所有 URL 和电子邮件地址

+{% hint style="info" %}
+Dify 提供了第一方的基础数据清洗方案，同时支持接入[ unstructured.io](https://docs.unstructured.io/welcome) 作为替代清洗方案：[配置说明](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi)
+{% endhint %}
+
 ### 索引方式

 你需要选择文本的**索引方式**来指定数据的匹配方式，索引策略往往与检索方式相关，你需要根据场景需求来选择合适的索引方式。