diff --git a/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md b/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md index e5a6e17..5c7c2b0 100644 --- a/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md +++ b/zh_CN/guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md @@ -38,9 +38,11 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空 ### 分段与清洗 -大语言模型存在有限的上下文窗口,通常需要将整段文本进行分段处理后,将与用户问题关联度最高的几个段落召回,即分段 TopK 召回模式。此外,在用户问题与文本分段进行语义匹配时,合适的分段大小将有助于匹配关联性最高的文本内容,减少信息噪音。 +**分段**:大语言模型存在有限的上下文窗口,通常需要将整段文本进行分段处理后,将与用户问题关联度最高的几个段落召回,即分段 TopK 召回模式。此外,在用户问题与文本分段进行语义匹配时,合适的分段大小将有助于匹配关联性最高的文本内容,减少信息噪音。 -分段与清洗支持两种策略 +**清洗:**为了保证文本召回的效果,通常需要在将数据传入模型之前对其进行清理。例如,如果输出中存在不需要的内容,可能会影响问题回复的质量。为了帮助用户解决这个问题, Dify 提供了多种清洗方法,可以帮助用户在将输出发送到下游应用程序之前对其进行清理。清洗步骤在分段之前。 + +分段与清洗支持两种配置策略 * 自动模式(即将下线) * 自定义模式 @@ -60,6 +62,10 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空 * 替换连续的空格、换行符和制表符 * 删除所有 URL 和电子邮件地址 +{% hint style="info" %} +Dify 提供了第一方的基础数据清洗方案,同时支持接入[ unstructured.io](https://docs.unstructured.io/welcome) 作为替代清洗方案:[配置说明](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi) +{% endhint %} + ### 索引方式 你需要选择文本的**索引方式**来指定数据的匹配方式,索引策略往往与检索方式相关,你需要根据场景需求来选择合适的索引方式。