dify-docs/zh_CN/guides/knowledge-base
vincehe 0c660ed1db
GITBOOK-138: No subject
2024-05-22 11:13:11 +00:00
..
README.md GITBOOK-138: No subject 2024-05-22 11:13:11 +00:00
chuang-jian-zhi-shi-ku-shang-chuan-wen-dang.md GITBOOK-138: No subject 2024-05-22 11:13:11 +00:00
external_data_tool.md GITBOOK-137: No subject 2024-05-22 04:59:43 +00:00
maintain-dataset-via-api.md GITBOOK-55: change request with no subject merged in GitBook 2023-12-23 15:39:07 +00:00
sync-from-notion.md GITBOOK-113: No subject 2024-04-08 14:59:17 +00:00
zhi-shi-ku-guan-li-wen-dang-wei-hu.md GITBOOK-138: No subject 2024-05-22 11:13:11 +00:00

README.md

知识库

大语言模型的训练数据一般基于公开的数据,且每一次训练需要消耗大量算力,这意味着模型的知识一般不会包含私有领域的知识,同时在公开知识领域存在一定的滞后性。为了解决这一问题,目前通用的方案是采用 RAG检索增强生成技术使用用户问题来匹配最相关的外部数据将检索到的相关内容召回后作为模型提示词的上下文来重新组织回复。

{% hint style="info" %} 想要了解更多 ,请查看扩展阅读内的检索增强生成RAG {% endhint %}

Dify 的知识库功能将 RAG 管线上的各环节可视化,提供了一套简单易用的用户界面来方便应用构建者管理个人或者团队的知识库,并能够快速集成至 AI 应用中。你只需准备文本内容,例如:

  • 长文本内容TXT、Markdown、DOCX、HTML、JSONL 甚至是 PDF 文件)
  • 结构化数据CSV、Excel 等)

另外,我们正在逐步支持从诸多数据源同步数据至数据集,包括:

  • 网页
  • Notion
  • Github
  • 数据库
  • ……

{% hint style="info" %} 情景:如果你的公司想基于现有知识库和产品文档建立一个 AI 客服助手,你可以在 Dify 中将文档上传至数据集,并建立一个对话型应用。这在过去可能需要花费你数周的时间,且难以持续维护。 {% endhint %}

知识库与文档

在 Dify 中知识库Knowledge是一些文档Documents的集合。一个知识库可以被整体集成至一个应用中作为检索上下文使用。文档可以由开发者或运营人员上传或由其它数据源同步通常对应数据源中的一个文件单位

FAQ

Q: 上传 PDF 解析乱码怎么办?

A: 如果你的 PDF 在特定格式内容下解析出现乱码的情况,可以考虑将 PDF 转成 Markdown 格式,或目前 Markdown 的准确度会更高,或减少 PDF 内的图片、表格等格式内容。对于 PDF 的使用体验我们正在研究优化方案。