GITBOOK-141: No subject

pull/100/head
vincehe 2024-05-22 11:57:57 +00:00 committed by gitbook-bot
parent 9a270d22bd
commit b037cd5671
No known key found for this signature in database
GPG Key ID: 07D2180C7B12D0FF
1 changed files with 8 additions and 2 deletions

View File

@ -38,9 +38,11 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空
### 分段与清洗
大语言模型存在有限的上下文窗口,通常需要将整段文本进行分段处理后,将与用户问题关联度最高的几个段落召回,即分段 TopK 召回模式。此外,在用户问题与文本分段进行语义匹配时,合适的分段大小将有助于匹配关联性最高的文本内容,减少信息噪音。
**分段**大语言模型存在有限的上下文窗口,通常需要将整段文本进行分段处理后,将与用户问题关联度最高的几个段落召回,即分段 TopK 召回模式。此外,在用户问题与文本分段进行语义匹配时,合适的分段大小将有助于匹配关联性最高的文本内容,减少信息噪音。
分段与清洗支持两种策略
**清洗:**为了保证文本召回的效果,通常需要在将数据传入模型之前对其进行清理。例如,如果输出中存在不需要的内容,可能会影响问题回复的质量。为了帮助用户解决这个问题, Dify 提供了多种清洗方法,可以帮助用户在将输出发送到下游应用程序之前对其进行清理。清洗步骤在分段之前。
分段与清洗支持两种配置策略
* 自动模式(即将下线)
* 自定义模式
@ -60,6 +62,10 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空
* 替换连续的空格、换行符和制表符
* 删除所有 URL 和电子邮件地址
{% hint style="info" %}
Dify 提供了第一方的基础数据清洗方案,同时支持接入[ unstructured.io](https://docs.unstructured.io/welcome) 作为替代清洗方案:[配置说明](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi)
{% endhint %}
### 索引方式
你需要选择文本的**索引方式**来指定数据的匹配方式,索引策略往往与检索方式相关,你需要根据场景需求来选择合适的索引方式。