GITBOOK-141: No subject
parent
9a270d22bd
commit
b037cd5671
|
|
@ -38,9 +38,11 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空
|
|||
|
||||
### 分段与清洗
|
||||
|
||||
大语言模型存在有限的上下文窗口,通常需要将整段文本进行分段处理后,将与用户问题关联度最高的几个段落召回,即分段 TopK 召回模式。此外,在用户问题与文本分段进行语义匹配时,合适的分段大小将有助于匹配关联性最高的文本内容,减少信息噪音。
|
||||
**分段**:大语言模型存在有限的上下文窗口,通常需要将整段文本进行分段处理后,将与用户问题关联度最高的几个段落召回,即分段 TopK 召回模式。此外,在用户问题与文本分段进行语义匹配时,合适的分段大小将有助于匹配关联性最高的文本内容,减少信息噪音。
|
||||
|
||||
分段与清洗支持两种策略
|
||||
**清洗:**为了保证文本召回的效果,通常需要在将数据传入模型之前对其进行清理。例如,如果输出中存在不需要的内容,可能会影响问题回复的质量。为了帮助用户解决这个问题, Dify 提供了多种清洗方法,可以帮助用户在将输出发送到下游应用程序之前对其进行清理。清洗步骤在分段之前。
|
||||
|
||||
分段与清洗支持两种配置策略
|
||||
|
||||
* 自动模式(即将下线)
|
||||
* 自定义模式
|
||||
|
|
@ -60,6 +62,10 @@ SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空
|
|||
* 替换连续的空格、换行符和制表符
|
||||
* 删除所有 URL 和电子邮件地址
|
||||
|
||||
{% hint style="info" %}
|
||||
Dify 提供了第一方的基础数据清洗方案,同时支持接入[ unstructured.io](https://docs.unstructured.io/welcome) 作为替代清洗方案:[配置说明](../../getting-started/install-self-hosted/environments.md#zhi-shi-ku-pei-zhi)
|
||||
{% endhint %}
|
||||
|
||||
### 索引方式
|
||||
|
||||
你需要选择文本的**索引方式**来指定数据的匹配方式,索引策略往往与检索方式相关,你需要根据场景需求来选择合适的索引方式。
|
||||
|
|
|
|||
Loading…
Reference in New Issue