GITBOOK-138: No subject
|
After Width: | Height: | Size: 141 KiB |
|
Before Width: | Height: | Size: 141 KiB After Width: | Height: | Size: 36 KiB |
|
Before Width: | Height: | Size: 36 KiB After Width: | Height: | Size: 587 KiB |
|
Before Width: | Height: | Size: 587 KiB After Width: | Height: | Size: 441 KiB |
|
Before Width: | Height: | Size: 441 KiB After Width: | Height: | Size: 295 KiB |
|
Before Width: | Height: | Size: 295 KiB After Width: | Height: | Size: 10 MiB |
|
Before Width: | Height: | Size: 10 MiB After Width: | Height: | Size: 446 KiB |
|
Before Width: | Height: | Size: 446 KiB After Width: | Height: | Size: 505 KiB |
|
Before Width: | Height: | Size: 505 KiB After Width: | Height: | Size: 219 KiB |
|
After Width: | Height: | Size: 370 KiB |
|
After Width: | Height: | Size: 256 KiB |
|
After Width: | Height: | Size: 779 KiB |
|
After Width: | Height: | Size: 330 KiB |
|
After Width: | Height: | Size: 330 KiB |
|
After Width: | Height: | Size: 330 KiB |
|
Before Width: | Height: | Size: 219 KiB After Width: | Height: | Size: 396 KiB |
|
|
@ -58,6 +58,8 @@
|
|||
* [应用发布](guides/workflow/publish.md)
|
||||
* [导出/导入模板](guides/workflow/dao-chu-dao-ru-mo-ban.md)
|
||||
* [知识库](guides/knowledge-base/README.md)
|
||||
* [创建知识库&上传文档](guides/knowledge-base/chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md)
|
||||
* [知识库管理&文档维护](guides/knowledge-base/zhi-shi-ku-guan-li-wen-dang-wei-hu.md)
|
||||
* [从 Notion 导入数据](guides/knowledge-base/sync-from-notion.md)
|
||||
* [通过 API 维护数据集](guides/knowledge-base/maintain-dataset-via-api.md)
|
||||
* [外部数据工具](guides/knowledge-base/external\_data\_tool.md)
|
||||
|
|
@ -77,7 +79,8 @@
|
|||
* [标注](guides/biao-zhu/README.md)
|
||||
* [日志与标注](guides/biao-zhu/logs.md)
|
||||
* [标注回复](guides/biao-zhu/annotation-reply.md)
|
||||
* [监测](guides/monitoring.md)
|
||||
* [监测](guides/monitoring/README.md)
|
||||
* [数据分析](guides/monitoring/analysis.md)
|
||||
* [扩展](guides/extension/README.md)
|
||||
* [API 扩展](guides/extension/api\_based\_extension/README.md)
|
||||
* [外部数据工具](guides/extension/api\_based\_extension/external\_data\_tool.md)
|
||||
|
|
|
|||
|
|
@ -8,7 +8,7 @@
|
|||
|
||||
为了方便快速上手使用,您可以在“探索”中找到智能助手的应用模板,添加到自己的工作区,或者在此基础上进行自定义。在全新的 Dify 工作室中,你也可以从零编排一个专属于你自己的智能助手,帮助你完成财务报表分析、撰写报告、Logo 设计、旅程规划等任务。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (1) (1).png" alt=""><figcaption><p>探索-智能助手应用模板</p></figcaption></figure>
|
||||
<figure><img src="../../.gitbook/assets/image (1) (1) (1).png" alt=""><figcaption><p>探索-智能助手应用模板</p></figcaption></figure>
|
||||
|
||||
在“工作室-助手型应用”内选择智能助手即可开始编排。
|
||||
|
||||
|
|
|
|||
|
|
@ -1,5 +1,7 @@
|
|||
# 聊天助手
|
||||
|
||||
🚧 维护中
|
||||
|
||||
对话型应用采用一问一答模式与用户持续对话。
|
||||
|
||||
### 适用场景
|
||||
|
|
|
|||
|
|
@ -1,5 +1,7 @@
|
|||
# 文本生成应用
|
||||
|
||||
🚧 维护中
|
||||
|
||||
文本生成类应用是一种能够根据用户提供的提示,自动生成高质量文本的应用。它可以生成各种类型的文本,例如文章摘要、翻译等。
|
||||
|
||||
### 适用场景
|
||||
|
|
|
|||
|
|
@ -1,8 +1,12 @@
|
|||
# 数据集管理
|
||||
# 知识库
|
||||
|
||||
大多数语言模型采用较为陈旧的训练数据,并且对每次请求的上下文有长度限制。例如 GPT-3.5 是基于 2021 年的语料进行训练的,且有每次约 4K Token 的限制。这意味着开发者如果想让 AI 应用基于最新的、私有的上下文对话,必须使用类似嵌入(Embedding)之类的技术。
|
||||
大语言模型的训练数据一般基于公开的数据,且每一次训练需要消耗大量算力,这意味着模型的知识一般不会包含私有领域的知识,同时在公开知识领域存在一定的滞后性。为了解决这一问题,目前通用的方案是采用 RAG(检索增强生成)技术,使用用户问题来匹配最相关的外部数据,将检索到的相关内容召回后作为模型提示词的上下文来重新组织回复。
|
||||
|
||||
Dify 的数据集功能可以使开发者(甚至非技术人员)以简单的方式管理数据集,并自动集成至 AI 应用中。你只需准备文本内容,例如:
|
||||
{% hint style="info" %}
|
||||
想要了解更多 ,请查看扩展阅读内的[检索增强生成(RAG)](../../learn-more/extended-reading/retrieval-augment/)
|
||||
{% endhint %}
|
||||
|
||||
Dify 的知识库功能将 RAG 管线上的各环节可视化,提供了一套简单易用的用户界面来方便应用构建者管理个人或者团队的知识库,并能够快速集成至 AI 应用中。你只需准备文本内容,例如:
|
||||
|
||||
* 长文本内容(TXT、Markdown、DOCX、HTML、JSONL 甚至是 PDF 文件)
|
||||
* 结构化数据(CSV、Excel 等)
|
||||
|
|
@ -19,102 +23,11 @@ Dify 的数据集功能可以使开发者(甚至非技术人员)以简单的
|
|||
**情景**:如果你的公司想基于现有知识库和产品文档建立一个 AI 客服助手,你可以在 Dify 中将文档上传至数据集,并建立一个对话型应用。这在过去可能需要花费你数周的时间,且难以持续维护。
|
||||
{% endhint %}
|
||||
|
||||
### 数据集与文档
|
||||
### 知识库与文档
|
||||
|
||||
在 Dify 中,\*\*数据集(Knowledge)**是一些**文档(Documents)\*\*的集合。一个数据集可以被整体集成至一个应用中作为上下文使用。文档可以由开发者或运营人员上传,或由其它数据源同步(通常对应数据源中的一个文件单位)。
|
||||
在 Dify 中,知识库(Knowledge)是一些文档(Documents)的集合。一个知识库可以被整体集成至一个应用中作为检索上下文使用。文档可以由开发者或运营人员上传,或由其它数据源同步(通常对应数据源中的一个文件单位)。
|
||||
|
||||
**上传文档的步骤:**
|
||||
|
||||
1. 上传你的文件,通常是长文本文件或表格文件。
|
||||
2. 分段、清洗并预览
|
||||
3. 由 Dify 提交至 LLM 供应商嵌入为向量数据,并存储
|
||||
4. 为文档设置元数据
|
||||
5. 可以在应用中使用了🎉!
|
||||
|
||||
### 创建数据集
|
||||
|
||||
在 Dify 主导航栏中点击**数据集**,在该页面你可以看到已有的数据集。你可以点击**创建数据集**进入创建向导:
|
||||
|
||||
* 如果你已经准备好了文件,可以从上传文件开始
|
||||
* 如果你还没有准备好文档,可以先创建一个空数据集
|
||||
|
||||
如果你在创建数据集时选择了使用外部数据源,该数据集的类型不可更改。这是为了防止单一数据集存在多数据源而造成的管理困难。如果你需要使用多个数据源,建议创建多个数据集。
|
||||
|
||||
#### 编辑良好的数据集描述
|
||||
|
||||
当一个应用中引用多个数据集时,AI 会根据用户的提问和数据集的描述来决定使用哪个数据集来回答用户的问题。因此,良好的数据集描述能提升 AI 选择数据集的准确率。
|
||||
|
||||
编写良好的数据集描述的要点是写清楚数据集包含的内容和特点。**数据集的描述建议以这个开头:`仅当你想要回答的问题是关于以下内容时有用:具体描述`**。一个房地产数据集的描述:
|
||||
|
||||
> 仅当你想要回答的问题是关于以下内容时有用: 2010 年到 2020 年的全球房地产市场数据。这些数据包括每个城市的平均房价、房产销售量、房屋类型等信息。此外,该数据集还包括了一些经济指标,如 GDP、失业率等,以及一些社会指标,如人口数量、教育水平等,这些指标可以帮助分析房地产市场的趋势和影响因素。
|
||||
>
|
||||
> 通过这些数据,我们可以了解全球房地产市场的发展趋势,分析各个城市的房价变化,以及了解经济和社会因素对房地产市场的影响。
|
||||
|
||||
### 上传文档
|
||||
|
||||
* 选择你要上传的文件,支持批量上传;
|
||||
* 预览全文;
|
||||
* 进行分段和清洗;
|
||||
* 等待 Dify 为你处理这些数据,通常该步骤在 LLM 供应商中需要消耗 Token。
|
||||
|
||||
### 文本分段与清洗
|
||||
|
||||
文本数据的分段与清洗是指 Dify 自动将你的数据进行段落分段 & 向量化处理,使得用户的提问(输入)能匹配到相关的文本段落(Q to P),最后输出结果。
|
||||
|
||||
上传一个数据集的文档,你需要选择文本的**索引方式**来指定数据的匹配方式。这会影响到 AI 在回复问题时的准确度。
|
||||
|
||||
**高质量模式**下,将调用 OpenAI 的嵌入接口进行处理,以在用户查询时提供更高的准确度。
|
||||
|
||||
**经济模式**下,会使用关键词索引方式,降低了准确度但无需花费 Token。
|
||||
|
||||
**Q\&A 分段模式**下,Q\&A 分段模式功能,与上述普通的「Q to P」(问题匹配文本段落)匹配模式不同,它是采用「Q to Q」(问题匹配问题)匹配工作,在文档经过分段后,经过总结为每一个分段生成 Q\&A 匹配对,当用户提问时,系统会找出与之最相似的问题,然后返回对应的分段作为答案。这种方式更加精确,因为它直接针对用户问题进行匹配,可以更准确地获取用户真正需要的信息。
|
||||
|
||||
> 问题文本是具有完整语法结构的自然语言,而不是文档检索任务中的一些关键字,所以 Q to Q (问题匹配问题)的模式会令语意和匹配更加清晰,并同时满足一些高频和高相似度问题的提问场景。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (110).png" alt=""><figcaption><p>Q&A 分段模式下被总结成多个 Q&A 对的文本</p></figcaption></figure>
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (109).png" alt=""><figcaption><p>Q to P 与 Q to Q 的索引模式区别</p></figcaption></figure>
|
||||
|
||||
### 对文档进行修改
|
||||
|
||||
由于技术原因,如果开发者对文档进行以下修改,Dify 会为你创建一个新的文档,而旧的文档会被存档和停用:
|
||||
|
||||
* 调整分段和清洗设置
|
||||
* 重新上传文件
|
||||
|
||||
我们支持对分段与清洗后的文本进行自定义增删改,你可以动态调整自己的分段信息,让你的数据集更加精准。通过点击数据集中 **文档 --> 段落 --> 编辑** 可修改段落内容以及自定义关键词。通过点击 **文档 --> 段落--> 添加分段-->添加新分段** 可手动添加新的分段内容,也可以点击 **文档 --> 段落--> 添加分段-->批量添加** 批量上传新的分段内容。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (19).png" alt=""><figcaption><p>编辑分段</p></figcaption></figure>
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (18).png" alt=""><figcaption><p>添加新分段</p></figcaption></figure>
|
||||
|
||||
### 文档的禁用和归档
|
||||
|
||||
* **禁用、取消禁用**:数据集支持将暂时不想被索引的文档或分段进行禁用,在数据集文档列表,点击禁用按钮,则文档被禁用;也可以在文档详情,点击禁用按钮,禁用整个文档或某个分段,禁用的文档将不会被索引。禁用的文档点击启用,可以取消禁用。
|
||||
* **归档、取消归档**:一些不再使用的旧文档数据,如果不想删除可以将它进行归档,归档后的数据就只能查看或删除,不可以进行编辑。在数据集文档列表,点击归档按钮,则文档被归档,也可以在文档详情,归档文档。归档的文档将不会被索引。归档的文档也可以点击撤销归档。
|
||||
|
||||
### 通过 API 维护数据集
|
||||
|
||||
TODO
|
||||
|
||||
### 数据集设置
|
||||
|
||||
在数据集的左侧导航中点击**设置**,你可以改变数据集的以下设置项:
|
||||
|
||||
* 数据集名称,用于识别一个数据集。
|
||||
* 数据集描述,能够让 AI 更好的适时取用数据集,如果描述为空则会使用 Dify 的自动索引策略
|
||||
* 权限,可选择 只有我 或 所有团队成员,不具有权限的人将无法查阅和编辑数据集。
|
||||
* 修改索引模式。注意:索引模式如果从经济升级为高质量会带来额外的 Token 消耗。而从高质量降级为经济则不会消耗 Token。
|
||||
|
||||
### 集成至应用
|
||||
|
||||
数据集准备完成后需集成到应用中,当 AI 应用处理用户请求时,会自动将与之关联的数据集内容作为上下文参考。
|
||||
|
||||
1. 进入**应用 - 提示词编排**页面
|
||||
2. 在上下文选项中,选择需要集成的数据集
|
||||
3. 保存设置以完成集成
|
||||
|
||||
### Q\&A
|
||||
### FAQ
|
||||
|
||||
**Q: 上传 PDF 解析乱码怎么办?**
|
||||
|
||||
|
|
|
|||
|
|
@ -0,0 +1,122 @@
|
|||
# 创建知识库&上传文档
|
||||
|
||||
🚧 维护中
|
||||
|
||||
### 创建知识库
|
||||
|
||||
在 Dify 主导航栏中点击知识库,在该页面你可以看到已有的知识库。你可以点击**创建知识库**进入创建向导:
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (173).png" alt=""><figcaption><p>创建知识库</p></figcaption></figure>
|
||||
|
||||
如果你已经准备好了文件,可以从上传文件开始;
|
||||
|
||||
如果你还没有准备好文档,可以先创建一个空数据集;
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (174).png" alt=""><figcaption><p>知识库创建</p></figcaption></figure>
|
||||
|
||||
{% hint style="info" %}
|
||||
如果你在创建数据集时选择了使用外部数据源,该知识库的类型不可更改。这是为了防止单一知识库存在多数据源而造成的管理困难。如果你需要使用多个数据源,建议创建多个知识库。
|
||||
{% endhint %}
|
||||
|
||||
### **上传文档**
|
||||
|
||||
**在知识库内上传文档的步骤:**
|
||||
|
||||
* 上传你的文件,通常是长文本文件或表格文件,支持批量
|
||||
* 分段与清洗,预览分段效果
|
||||
* 选择及配置索引和检索策略
|
||||
* 等待分段嵌入(通过 Embedding API)
|
||||
* 完成上传,可以在应用中使用了🎉!
|
||||
|
||||
{% hint style="info" %}
|
||||
批量文档上传仅在社区版和 SaaS 的付费订阅计划中支持;
|
||||
|
||||
单文档的上传大小限制为 15MB;
|
||||
|
||||
SaaS 版本中不同的订阅计划限定了文档上传个数和向量存储空间的上限;
|
||||
{% endhint %}
|
||||
|
||||
### 分段与清洗
|
||||
|
||||
大语言模型存在有限的上下文窗口,通常需要将整段文本进行分段处理后,将与用户问题关联度最高的几个段落召回,即分段 TopK 召回模式。此外,在用户问题与文本分段进行语义匹配时,合适的分段大小将有助于匹配关联性最高的文本内容,减少信息噪音。
|
||||
|
||||
分段与清洗支持两种策略
|
||||
|
||||
* 自动模式(即将下线)
|
||||
* 自定义模式
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (177).png" alt=""><figcaption></figcaption></figure>
|
||||
|
||||
在自定义模式下,用户可以根据不同的文档格式和场景要求来配置文本的分段和清洗策略。
|
||||
|
||||
**分段规则配置:**
|
||||
|
||||
* 分段标识符,设置标识符如“\n”,系统将在文本中出现该标识符时分段
|
||||
* 分段最大长度,根据分段的文本字符数最大上限来进行分段,超出该长度时将强制分段
|
||||
* 分段重叠长度,设置分段间的重叠字符数,建议设置为分段长度的 10-25%,有助于保留分段之间的语义相关性,在多分段召回时提高召回效果。
|
||||
|
||||
**预处理规则配置:**
|
||||
|
||||
* 替换连续的空格、换行符和制表符
|
||||
* 删除所有 URL 和电子邮件地址
|
||||
|
||||
### 索引方式
|
||||
|
||||
你需要选择文本的**索引方式**来指定数据的匹配方式,索引策略往往与检索方式相关,你需要根据场景需求来选择合适的索引方式。
|
||||
|
||||
**高质量模式:**将调用 OpenAI 的嵌入接口进行处理,以在用户查询时提供更高的准确度。
|
||||
|
||||
**经济模式**:会使用关键词索引方式,降低了准确度但无需花费 Token。
|
||||
|
||||
**Q\&A 模式(仅在社区版支持):**Q\&A 分段模式功能,与上述普通的「Q to P」(问题匹配文本段落)匹配模式不同,它是采用「Q to Q」(问题匹配问题)匹配工作,在文档经过分段后,经过总结为每一个分段生成 Q\&A 匹配对,当用户提问时,系统会找出与之最相似的问题,然后返回对应的分段作为答案。这种方式更加精确,因为它直接针对用户问题进行匹配,可以更准确地获取用户真正需要的信息。
|
||||
|
||||
在知识库上传文档时,系统将对文本进行分段,使得用户的提问(输入)能匹配到相关的文本段落(Q to P),最后输出结果。
|
||||
|
||||
> 问题文本是具有完整语法结构的自然语言,而不是文档检索任务中的一些关键字,所以 Q to Q (问题匹配问题)的模式会令语意和匹配更加清晰,并同时满足一些高频和高相似度问题的提问场景。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (110).png" alt=""><figcaption><p>Q&A 分段模式下被总结成多个 Q&A 对的文本</p></figcaption></figure>
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (109).png" alt=""><figcaption><p>Q to P 与 Q to Q 的索引模式区别</p></figcaption></figure>
|
||||
|
||||
### 检索设置
|
||||
|
||||
在高质量索引模式下,Dify 提供了 3 种检索方案:
|
||||
|
||||
* **向量检索**,通过生成查询嵌入并查询与其向量表示最相似的文本分段。
|
||||
* **全文检索**,索引文档中的所有词汇,从而允许用户查询任意词汇,并返回包含这些词汇的文本片段。
|
||||
* **混合检索**,同时执行全文检索和向量检索,并附加重排序步骤,从两类查询结果中选择匹配用户问题的最佳结果,需配置 Rerank 模型 API。
|
||||
|
||||
三种检索方式的具体配置如下:
|
||||
|
||||
#### **向量检索**
|
||||
|
||||
定义:通过生成查询嵌入并查询与其向量表示最相似的文本分段。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (116).png" alt="" width="563"><figcaption><p>向量检索设置</p></figcaption></figure>
|
||||
|
||||
TopK:用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。系统默认值为 3 。
|
||||
|
||||
Score 阈值:用于设置文本片段筛选的相似度阈值,即:只召回超过设置分数的文本片段。系统默认关闭该设置,即不会对召回的文本片段相似值过滤。打开后默认值为 0.5 。
|
||||
|
||||
Rerank 模型:你可以在“模型供应商”页面配置 Rerank 模型的 API 秘钥之后,在检索设置中打开“Rerank 模型”,系统会在语义检索后对已召回的文档结果再一次进行语义重排序,优化排序结果。设置 Rerank 模型后,TopK 和 Score 阈值设置仅在 Rerank 步骤生效。
|
||||
|
||||
#### **全文检索**
|
||||
|
||||
定义:索引文档中的所有词汇,从而允许用户查询任意词汇,并返回包含这些词汇的文本片段。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (122).png" alt="" width="563"><figcaption><p>全文检索设置</p></figcaption></figure>
|
||||
|
||||
TopK:用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。系统默认值为 3 。
|
||||
|
||||
Rerank 模型:你可以在“模型供应商”页面配置 Rerank 模型的 API 秘钥之后,在检索设置中打开“Rerank 模型”,系统会在全文检索后对已召回的文档结果再一次进行语义重排序,优化排序结果。设置 Rerank 模型后,TopK 和 Score 阈值设置仅在 Rerank 步骤生效。
|
||||
|
||||
#### **混合检索**
|
||||
|
||||
同时执行全文检索和向量检索,并应用重排序步骤,从两类查询结果中选择匹配用户问题的最佳结果,需配置 Rerank 模型 API。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (118).png" alt="" width="563"><figcaption><p>混合检索设置</p></figcaption></figure>
|
||||
|
||||
TopK:用于筛选与用户问题相似度最高的文本片段。系统同时会根据选用模型上下文窗口大小动态调整片段数量。系统默认值为 3 。
|
||||
|
||||
Rerank 模型:你可以在“模型供应商”页面配置 Rerank 模型的 API 秘钥之后,在检索设置中打开“Rerank 模型”,系统会在混合检索后对已召回的文档结果再一次进行语义重排序,优化排序结果。设置 Rerank 模型后,TopK 和 Score 阈值设置仅在 Rerank 步骤生效。
|
||||
|
||||
|
|
@ -0,0 +1,42 @@
|
|||
# 知识库管理&文档维护
|
||||
|
||||
🚧 维护中
|
||||
|
||||
### 对文档进行修改
|
||||
|
||||
由于技术原因,如果开发者对文档进行以下修改,Dify 会为你创建一个新的文档,而旧的文档会被存档和停用:
|
||||
|
||||
* 调整分段和清洗设置
|
||||
* 重新上传文件
|
||||
|
||||
我们支持对分段与清洗后的文本进行自定义增删改,你可以动态调整自己的分段信息,让你的数据集更加精准。通过点击数据集中 **文档 --> 段落 --> 编辑** 可修改段落内容以及自定义关键词。通过点击 **文档 --> 段落--> 添加分段-->添加新分段** 可手动添加新的分段内容,也可以点击 **文档 --> 段落--> 添加分段-->批量添加** 批量上传新的分段内容。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (19).png" alt=""><figcaption><p>编辑分段</p></figcaption></figure>
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (18).png" alt=""><figcaption><p>添加新分段</p></figcaption></figure>
|
||||
|
||||
### 文档的禁用和归档
|
||||
|
||||
* **禁用、取消禁用**:数据集支持将暂时不想被索引的文档或分段进行禁用,在数据集文档列表,点击禁用按钮,则文档被禁用;也可以在文档详情,点击禁用按钮,禁用整个文档或某个分段,禁用的文档将不会被索引。禁用的文档点击启用,可以取消禁用。
|
||||
* **归档、取消归档**:一些不再使用的旧文档数据,如果不想删除可以将它进行归档,归档后的数据就只能查看或删除,不可以进行编辑。在数据集文档列表,点击归档按钮,则文档被归档,也可以在文档详情,归档文档。归档的文档将不会被索引。归档的文档也可以点击撤销归档。
|
||||
|
||||
### 通过 API 维护数据集
|
||||
|
||||
TODO
|
||||
|
||||
### 数据集设置
|
||||
|
||||
在数据集的左侧导航中点击**设置**,你可以改变数据集的以下设置项:
|
||||
|
||||
* 数据集名称,用于识别一个数据集。
|
||||
* 数据集描述,能够让 AI 更好的适时取用数据集,如果描述为空则会使用 Dify 的自动索引策略
|
||||
* 权限,可选择 只有我 或 所有团队成员,不具有权限的人将无法查阅和编辑数据集。
|
||||
* 修改索引模式。注意:索引模式如果从经济升级为高质量会带来额外的 Token 消耗。而从高质量降级为经济则不会消耗 Token。
|
||||
|
||||
### 集成至应用
|
||||
|
||||
数据集准备完成后需集成到应用中,当 AI 应用处理用户请求时,会自动将与之关联的数据集内容作为上下文参考。
|
||||
|
||||
1. 进入**应用 - 提示词编排**页面
|
||||
2. 在上下文选项中,选择需要集成的数据集
|
||||
3. 保存设置以完成集成
|
||||
|
|
@ -1,3 +0,0 @@
|
|||
# 监测
|
||||
|
||||
🚧 工作中
|
||||
|
|
@ -0,0 +1,7 @@
|
|||
# 监测
|
||||
|
||||
🚧 维护中
|
||||
|
||||
**Dify** 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 [LLMOps](../../learn-more/extended-reading/what-is-llmops.md) 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。
|
||||
|
||||
你可以在 「概览」 内 监控、跟踪应用程序在生产环境中的性能,在数据分析仪表盘内分析生产环境中应用的使用成本、延迟、用户反馈、性能等指标,并通过持续调试、迭代不断改进你的应用程序。
|
||||
|
|
@ -0,0 +1,17 @@
|
|||
# 数据分析
|
||||
|
||||
概览内显示了用量、活跃用户数和 LLM 调用消耗等,这使你可以持续改进应用运营的经济性,我们将逐步提供更多有用的可视化能力,请告诉我们你想要的。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image.png" alt=""><figcaption><p>概览—数据分析</p></figcaption></figure>
|
||||
|
||||
**全部消息数(Total Messages)**,反映 AI 每天的互动总次数,每回答用户一个问题算一条 Message。提示词编排和调试的会话不计入。
|
||||
|
||||
**活跃用户数(Active Users)**,与 AI 有效互动,即有一问一答以上的唯一用户数。提示词编排和调试的会话不计入。
|
||||
|
||||
**平均会话互动数(Average Session Interactions)**,反映每个会话用户的持续沟通次数,如果用户与 AI 问答了 10 轮,即为 10。该指标反映了用户粘性。仅在对话型应用提供。
|
||||
|
||||
**Token 输出速度(Token Output Speed)**每秒的 Token 输出数量,侧面反应模型的生成速率以及应用的使用频率。
|
||||
|
||||
**用户满意度(User Satisfaction Rate)**,每 1000 条消息的点赞数。反应了用户对回答十分满意的比例。
|
||||
|
||||
**Token 消耗(Token Usage)**,反映每日该应用请求语言模型的 Tokens 花费,用于成本控制。
|
||||
|
|
@ -14,8 +14,8 @@
|
|||
|
||||
示例2:输出图片+LLM回复
|
||||
|
||||
<figure><img src="../../../.gitbook/assets/image.png" alt=""><figcaption></figcaption></figure>
|
||||
<figure><img src="../../../.gitbook/assets/image (1).png" alt=""><figcaption></figcaption></figure>
|
||||
|
||||
<figure><img src="../../../.gitbook/assets/image (1).png" alt="" width="275"><figcaption></figcaption></figure>
|
||||
<figure><img src="../../../.gitbook/assets/image (1) (1).png" alt="" width="275"><figcaption></figcaption></figure>
|
||||
|
||||
提示:直接回复节点可以不作为最终的输出节点,作为流程过程节点时,可以在中间步骤流式输出结果。
|
||||
|
|
|
|||
|
|
@ -38,7 +38,7 @@ Dify 目前已支持 Cohere Rerank 模型,通过进入“模型供应商-> Coh
|
|||
|
||||
通过进入“数据集->创建数据集->检索设置”页面并在添加 Rerank 设置。除了在创建数据集可以设置 Rerank ,你也可以在已创建的数据集设置内更改 Rerank 配置,在应用编排的数据集召回模式设置中更改 Rerank 配置。
|
||||
|
||||
<figure><img src="../../../.gitbook/assets/image (1) (1) (1) (1) (1).png" alt="" width="563"><figcaption><p>数据集检索模式中设置 Rerank 模型</p></figcaption></figure>
|
||||
<figure><img src="../../../.gitbook/assets/image (1) (1) (1) (1) (1) (1).png" alt="" width="563"><figcaption><p>数据集检索模式中设置 Rerank 模型</p></figcaption></figure>
|
||||
|
||||
\*\*TopK:\*\*用于设置 Rerank 后返回相关文档的数量。
|
||||
|
||||
|
|
@ -50,4 +50,4 @@ Dify 目前已支持 Cohere Rerank 模型,通过进入“模型供应商-> Coh
|
|||
|
||||
关于多路召回模式的说明:🔗
|
||||
|
||||
<figure><img src="../../../.gitbook/assets/image (1) (1) (1) (1) (1) (1).png" alt=""><figcaption><p>数据集多路召回模式中设置 Rerank 模型</p></figcaption></figure>
|
||||
<figure><img src="../../../.gitbook/assets/image (1) (1) (1) (1) (1) (1) (1).png" alt=""><figcaption><p>数据集多路召回模式中设置 Rerank 模型</p></figcaption></figure>
|
||||
|
|
|
|||
|
|
@ -125,7 +125,7 @@ Query or prefix prompt is too long, you can reduce the preix prompt, or shrink t
|
|||
|
||||
如下方表格示例,仅需保留第二行的表头,首行(表格1)为多余表头,需删掉。
|
||||
|
||||
<figure><img src="../../.gitbook/assets/image (1) (1) (1) (1) (1) (1) (1).png" alt=""><figcaption></figcaption></figure>
|
||||
<figure><img src="../../.gitbook/assets/image (1) (1) (1) (1) (1) (1) (1) (1).png" alt=""><figcaption></figcaption></figure>
|
||||
|
||||
### 20 买了 ChatGPT plus,为什么在 dify 里还不能使用 GPT4?
|
||||
|
||||
|
|
|
|||