Docs: fix zh-cn sitemap (#1631)

Signed-off-by: Carson Yang <yangchuansheng33@gmail.com>
2025-07-24 22:03:54 +00:00 · 2024-05-29 15:46:43 +08:00
parent f1e16b209a
commit 5c8f2f95f7
107 changed files with 4 additions and 4 deletions
--- a/docSite/content/zh-cn/docs/course/_index.md
+++ b/docSite/content/zh-cn/docs/course/_index.md
@@ -0,0 +1,9 @@
+---
+weight: 100
+title: '基础教程'
+description: 'FastGPT 基础教程'
+icon: 'import_contacts'
+draft: false
+images: []
+---
+<!-- 100 ~ 300 -->
--- a/docSite/content/zh-cn/docs/course/ai_settings.md
+++ b/docSite/content/zh-cn/docs/course/ai_settings.md
@@ -0,0 +1,150 @@
+---
+title: "AI 相关参数配置说明"
+description: "FastGPT AI 相关参数配置说明"
+icon: "sign_language"
+draft: false
+toc: true
+weight: 102
+---
+
+在 FastGPT 的 AI 对话模块中，有一个 AI 高级配置，里面包含了 AI 模型的参数配置，本文详细介绍这些配置的含义。
+
+|  |  | |
+| --- | --- | --- |
+| ![](/imgs/aichat0.png) | ![](/imgs/aichat02.png) | ![](/imgs/aichat2.png) |
+
+## 返回AI内容（高级编排特有）
+
+这是一个开关，打开的时候，当 AI 对话模块运行时，会将其输出的内容返回到浏览器（API响应）；如果关闭，AI 输出的内容不会返回到浏览器，但是生成的内容仍可以通过【AI回复】进行输出。你可以将【AI回复】连接到其他模块中。
+
+### 最大上下文
+
+代表模型最多容纳的文字数量。
+
+### 函数调用
+
+支持函数调用的模型，在使用工具时更加准确。
+
+### 温度 
+
+越低回答越严谨，少废话（实测下来，感觉差别不大）
+
+### 回复上限
+
+最大回复 token 数量。注意，是回复的Tokens！不是上下文 tokens。
+
+### 系统提示词
+
+被放置在上下文数组的最前面，role 为 system，用于引导模型。
+
+## 引用模板 & 引用提示词
+
+这两个参数与知识库问答场景相关，可以控制知识库相关的提示词。
+
+### AI 对话消息组成
+
+想使用明白这两个变量，首先要了解传递传递给 AI 模型的消息格式。它是一个数组，FastGPT 中这个数组的组成形式为：
+
+```json
+[
+    内置提示词（config.json 配置，一般为空）
+    系统提示词 （用户输入的提示词）
+    历史记录
+    问题（由引用提示词、引用模板和用户问题组成）
+]
+```
+
+{{% alert icon="🍅" context="success" %}}
+Tips: 可以通过点击上下文按键查看完整的上下文组成，便于调试。
+{{% /alert %}}
+
+### 引用模板和提示词设计
+
+引用模板和引用提示词通常是成对出现，引用提示词依赖引用模板。
+
+FastGPT 知识库采用 QA 对(不一定都是问答格式，仅代表两个变量)的格式存储，在转义成字符串时候会根据**引用模板**来进行格式化。知识库包含多个可用变量： q, a, sourceId（数据的ID）, index(第n个数据), source(数据的集合名、文件名)，score(距离得分，0-1) 可以通过 {{q}} {{a}} {{sourceId}} {{index}} {{source}} {{score}} 按需引入。下面一个模板例子：
+
+可以通过 [知识库结构讲解](/docs/course/dataset_engine/) 了解详细的知识库的结构。
+
+#### 引用模板
+
+```
+{instruction:"{{q}}",output:"{{a}}",source:"{{source}}"}
+```
+
+搜索到的知识库，会自动将 q,a,source 替换成对应的内容。每条搜索到的内容，会通过 `\n` 隔开。例如：
+```
+{instruction:"电影《铃芽之旅》的导演是谁？",output:"电影《铃芽之旅》的导演是新海诚。",source:"手动输入"}
+{instruction:"本作的主人公是谁？",output:"本作的主人公是名叫铃芽的少女。",source:""}
+{instruction:"电影《铃芽之旅》男主角是谁？",output:"电影《铃芽之旅》男主角是宗像草太，由松村北斗配音。",source:""}
+{instruction:"电影《铃芽之旅》的编剧是谁？22",output:"新海诚是本片的编剧。",source:"手动输入"}
+```
+
+#### 引用提示词
+
+引用模板需要和引用提示词一起使用，提示词中可以写引用模板的格式说明以及对话的要求等。可以使用 {{quote}} 来使用 **引用模板**，使用 {{question}} 来引入问题。例如：
+
+```
+你的背景知识:
+"""
+{{quote}}
+"""
+对话要求：
+1. 背景知识是最新的，其中 instruction 是相关介绍，output 是预期回答或补充。
+2. 使用背景知识回答问题。
+3. 背景知识无法回答问题时，你可以礼貌的的回答用户问题。
+我的问题是:"{{question}}"
+```
+
+转义后则为：
+```
+你的背景知识:
+"""
+{instruction:"电影《铃芽之旅》的导演是谁？",output:"电影《铃芽之旅》的导演是新海诚。",source:"手动输入"}
+{instruction:"本作的主人公是谁？",output:"本作的主人公是名叫铃芽的少女。",source:""}
+{instruction:"电影《铃芽之旅》男主角是谁？",output:"电影《铃芽之旅》男主角是宗像草太，由松村北斗配音}
+"""
+对话要求：
+1. 背景知识是最新的，其中 instruction 是相关介绍，output 是预期回答或补充。
+2. 使用背景知识回答问题。
+3. 背景知识无法回答问题时，你可以礼貌的的回答用户问题。
+我的问题是:"{{question}}"
+```
+
+#### 总结
+
+引用模板规定了搜索出来的内容如何组成一句话，其由 q,a,index,source 多个变量组成。
+
+引用提示词由`引用模板`和`提示词`组成，提示词通常是对引用模板的一个描述，加上对模型的要求。
+
+### 引用模板和提示词设计 示例
+
+#### 通用模板与问答模板对比
+
+我们通过一组`你是谁`的手动数据，对通用模板与问答模板的效果进行对比。此处特意打了个搞笑的答案，通用模板下 GPT35 就变得不那么听话了，而问答模板下 GPT35 依然能够回答正确。这是由于结构化的提示词，在大语言模型中具有更强的引导作用。
+
+{{% alert icon="🍅" context="success" %}}
+Tips: 建议根据不同的场景，每种知识库仅选择1类数据类型，这样有利于充分发挥提示词的作用。
+{{% /alert %}}
+
+| 通用模板配置及效果 | 问答模板配置及效果 |
+| --- | --- |
+| ![](/imgs/datasetprompt1.jpg) | ![](/imgs/datasetprompt2.jpg) |
+| ![](/imgs/datasetprompt3.jpg) | ![](/imgs/datasetprompt5.jpg) |
+| ![](/imgs/datasetprompt4.jpg) | ![](/imgs/datasetprompt6.jpg) |
+
+#### 严格模板
+
+使用非严格模板，我们随便询问一个不在知识库中的内容，模型通常会根据其自身知识进行回答。
+
+| 非严格模板效果 | 选择严格模板 | 严格模板效果 |
+| --- | --- | --- |
+| ![](/imgs/datasetprompt7.webp) | ![](/imgs/datasetprompt8.jpg) |![](/imgs/datasetprompt9.jpg) |
+
+#### 提示词设计思路
+
+1. 使用序号进行不同要求描述。
+2. 使用首先、然后、最后等词语进行描述。
+3. 列举不同场景的要求时，尽量完整，不要遗漏。例如：背景知识完全可以回答、背景知识可以回答一部分、背景知识与问题无关，3种场景都说明清楚。
+4. 巧用结构化提示，例如在问答模板中，利用了`instruction`和`output`，清楚的告诉模型，`output`是一个预期的答案。
+5. 标点符号正确且完整。
--- a/docSite/content/zh-cn/docs/course/chat_input_guide.md
+++ b/docSite/content/zh-cn/docs/course/chat_input_guide.md
@@ -0,0 +1,54 @@
+---
+title: "对话问题引导"
+description: "FastGPT 对话问题引导"
+icon: "code"
+draft: false
+toc: true
+weight: 350
+---
+
+![](/imgs/questionGuide.png)
+
+## 什么是自定义问题引导
+
+你可以为你的应用提前预设一些问题，用户在输入时，会根据输入的内容，动态搜索这些问题作为提示，从而引导用户更快的进行提问。
+
+你可以直接在 FastGPT 中配置词库，或者提供自定义词库接口。
+
+## 自定义词库接口
+
+需要保证这个接口可以被用户浏览器访问。
+
+**请求：**
+
+```bash
+curl --location --request GET 'http://localhost:3000/api/core/chat/inputGuide/query?appId=663c75302caf8315b1c00194&searchKey=你'
+```
+
+其中 `appId` 为应用ID，`searchKey` 为搜索关键字，最多是50个字符。
+
+**响应**
+
+```json
+{
+  "code": 200,
+  "statusText": "",
+  "message": "",
+  "data": [
+    "是你",
+    "你是谁呀",
+    "你好好呀",
+    "你好呀",
+    "你是谁！",
+    "你好"
+  ]
+}
+```
+
+data是一个数组，包含了搜索到的问题，最多只需要返回5个问题。
+
+
+**参数说明：**
+
+- appId - 应用ID
+- searchKey - 搜索关键字
--- a/docSite/content/zh-cn/docs/course/dataset_engine.md
+++ b/docSite/content/zh-cn/docs/course/dataset_engine.md
@@ -0,0 +1,136 @@
+---
+title: '知识库搜索方案和参数'
+description: '本节会详细介绍 FastGPT 知识库结构设计，理解其 QA 的存储格式和多向量映射，以便更好的构建知识库。同时会介绍每个搜索参数的功能。这篇介绍主要以使用为主，详细原理不多介绍。'
+icon: 'language'
+draft: false
+toc: true
+weight: 106
+---
+
+## 理解向量
+
+FastGPT 采用了 RAG 中的 Embedding 方案构建知识库，要使用好 FastGPT 需要简单的理解`Embedding`向量是如何工作的及其特点。
+
+人类的文字、图片、视频等媒介是无法直接被计算机理解的，要想让计算机理解两段文字是否有相似性、相关性，通常需要将它们转成计算机可以理解的语言，向量是其中的一种方式。
+
+向量可以简单理解为一个数字数组，两个向量之间可以通过数学公式得出一个`距离`，距离越小代表两个向量的相似度越大。从而映射到文字、图片、视频等媒介上，可以用来判断两个媒介之间的相似度。向量搜索便是利用了这个原理。
+
+而由于文字是有多种类型，并且拥有成千上万种组合方式，因此在转成向量进行相似度匹配时，很难保障其精确性。在向量方案构建的知识库中，通常使用`topk`召回的方式，也就是查找前`k`个最相似的内容，丢给大模型去做更进一步的`语义判断`、`逻辑推理`和`归纳总结`，从而实现知识库问答。因此，在知识库问答中，向量搜索的环节是最为重要的。
+
+影响向量搜索精度的因素非常多，主要包括：向量模型的质量、数据的质量（长度，完整性，多样性）、检索器的精度（速度与精度之间的取舍）。与数据质量对应的就是检索词的质量。
+
+检索器的精度比较容易解决，向量模型的训练略复杂，因此数据和检索词质量优化成了一个重要的环节。
+
+
+### 提高向量搜索精度的方法
+
+1. 更好分词分段：当一段话的结构和语义是完整的，并且是单一的，精度也会提高。因此，许多系统都会优化分词器，尽可能的保障每组数据的完整性。
+2. 精简`index`的内容，减少向量内容的长度：当`index`的内容更少，更准确时，检索精度自然会提高。但与此同时，会牺牲一定的检索范围，适合答案较为严格的场景。
+3. 丰富`index`的数量，可以为同一个`chunk`内容增加多组`index`。
+4. 优化检索词：在实际使用过程中，用户的问题通常是模糊的或是缺失的，并不一定是完整清晰的问题。因此优化用户的问题（检索词）很大程度上也可以提高精度。
+5. 微调向量模型：由于市面上直接使用的向量模型都是通用型模型，在特定领域的检索精度并不高，因此微调向量模型可以很大程度上提高专业领域的检索效果。
+
+## FastGPT 构建知识库方案
+
+### 数据存储结构
+
+在 FastGPT 中，整个知识库由库、集合和数据 3 部分组成。集合可以简单理解为一个`文件`。一个`库`中可以包含多个`集合`，一个`集合`中可以包含多组`数据`。最小的搜索单位是`库`，也就是说，知识库搜索时，是对整个`库`进行搜索，而集合仅是为了对数据进行分类管理，与搜索效果无关。（起码目前还是）
+
+![](/imgs/dataset_tree.png)
+
+### 向量存储结构
+
+FastGPT 采用了`PostgresSQL`的`PG Vector`插件作为向量检索器，索引为`HNSW`。且`PostgresSQL`仅用于向量检索（该引擎可以替换成其它数据库），`MongoDB`用于其他数据的存取。
+
+在`MongoDB`的`dataset.datas`表中，会存储向量原数据的信息，同时有一个`indexes`字段，会记录其对应的向量ID，这是一个数组，也就是说，一组向量可以对应多组数据。
+
+在`PostgresSQL`的表中，设置一个`vector`字段用于存储向量。在检索时，会先召回向量，再根据向量的ID，去`MongoDB`中寻找原数据内容，如果对应了同一组原数据，则进行合并，向量得分取最高得分。
+
+![](/imgs/datasetSetting1.png)
+
+### 多向量的目的和使用方式
+
+在一组向量中，内容的长度和语义的丰富度通常是矛盾的，无法兼得。因此，FastGPT 采用了多向量映射的方式，将一组数据映射到多组向量中，从而保障数据的完整性和语义的丰富度。
+
+你可以为一组较长的文本，添加多组向量，从而在检索时，只要其中一组向量被检索到，该数据也将被召回。
+
+意味着，你可以通过标注数据块的方式，不断提高数据块的精度。
+
+### 检索方案
+
+1. 通过`问题优化`实现指代消除和问题扩展，从而增加连续对话的检索能力以及语义丰富度。
+2. 通过`Concat query`来增加`Rerank`连续对话的时，排序的准确性。
+3. 通过`RRF`合并方式，综合多个渠道的检索效果。
+4. 通过`Rerank`来二次排序，提高精度。
+
+![](/imgs/dataset_search_process.png)
+
+
+## 搜索参数
+| | | |
+| --- |---| --- |
+|![](/imgs/dataset_search_params1.png)| ![](/imgs/dataset_search_params2.png) | ![](/imgs/dataset_search_params3.png) |
+
+### 搜索模式
+
+#### 语义检索
+
+语义检索是通过向量距离，计算用户问题与知识库内容的距离，从而得出“相似度”，当然这并不是语文上的相似度，而是数学上的。
+
+优点：
+- 相近语义理解
+- 跨多语言理解（例如输入中文问题匹配英文知识点）
+- 多模态理解（文本，图片，音视频等）
+
+缺点：
+- 依赖模型训练效果
+- 精度不稳定
+- 受关键词和句子完整度影响
+
+#### 全文检索
+
+采用传统的全文检索方式。适合查找关键的主谓语等。
+
+#### 混合检索
+
+同时使用向量检索和全文检索，并通过 RRF 公式进行两个搜索结果合并，一般情况下搜索结果会更加丰富准确。
+
+由于混合检索后的查找范围很大，并且无法直接进行相似度过滤，通常需要进行利用重排模型进行一次结果重新排序，并利用重排的得分进行过滤。
+
+#### 结果重排
+
+利用`ReRank`模型对搜索结果进行重排，绝大多数情况下，可以有效提高搜索结果的准确率。不过，重排模型与问题的完整度（主谓语齐全）有一些关系，通常会先走问题优化后再进行搜索-重排。重排后可以得到一个`0-1`的得分，代表着搜索内容与问题的相关度，该分数通常比向量的得分更加精确，可以根据得分进行过滤。
+
+FastGPT 会使用 `RRF` 对重排结果、向量搜索结果、全文检索结果进行合并，得到最终的搜索结果。
+
+### 搜索过滤
+
+#### 引用上限
+
+每次搜索最多引用`n`个`tokens`的内容。
+
+之所以不采用`top k`，是发现在混合知识库（问答库、文档库）时，不同`chunk`的长度差距很大，会导致`top k`的结果不稳定，因此采用了`tokens`的方式进行引用上限的控制。
+
+#### 最低相关度
+
+一个`0-1`的数值，会过滤掉一些低相关度的搜索结果。
+
+该值仅在`语义检索`或使用`结果重排`时生效。
+
+### 问题优化
+
+#### 背景
+
+在 RAG 中，我们需要根据输入的问题去数据库里执行 embedding 搜索，查找相关的内容，从而查找到相似的内容（简称知识库搜索）。
+
+在搜索的过程中，尤其是连续对话的搜索，我们通常会发现后续的问题难以搜索到合适的内容，其中一个原因是知识库搜索只会使用“当前”的问题去执行。看下面的例子：
+
+![](/imgs/coreferenceResolution2.webp)
+
+用户在提问“第二点是什么”的时候，只会去知识库里查找“第二点是什么”，压根查不到内容。实际上需要查询的是“QA结构是什么”。因此我们需要引入一个【问题优化】模块，来对用户当前的问题进行补全，从而使得知识库搜索能够搜索到合适的内容。使用补全后效果如下：
+
+![](/imgs/coreferenceResolution3.webp)
+
+#### 实现方式
+
+在进行`数据检索`前，会先让模型进行`指代消除`与`问题扩展`，一方面可以可以解决指代对象不明确问题，同时可以扩展问题的语义丰富度。你可以通过每次对话后的对话详情，查看补全的结果。
--- a/docSite/content/zh-cn/docs/course/externalFile.md
+++ b/docSite/content/zh-cn/docs/course/externalFile.md
@@ -0,0 +1,26 @@
+---
+title: '外部文件知识库'
+description: 'FastGPT 外部文件知识库功能介绍和使用方式'
+icon: 'language'
+draft: false
+toc: true
+weight: 107
+---
+
+外部文件库是 FastGPT 商业版特有功能。它允许接入你现在的文件系统，无需将文件再导入一份到 FastGPT 中。
+
+并且，阅读权限可以通过你的文件系统进行控制。
+
+|                       |                       | |
+| --------------------- | --------------------- | --------------------- |
+| ![](/imgs/external_file0.png) | ![](/imgs/external_file1.png) | ![](/imgs/external_file2.png) | 
+
+
+## 导入参数说明
+
+- 外部预览地址：用于跳转你的文件阅读地址，会携带“文件阅读ID”进行访问。
+- 文件访问URL：文件可访问的地址。
+- 文件阅读ID：通常情况下，文件访问URL是临时的。如果希望永久可以访问，你需要使用该文件阅读ID，并配合上“外部预览地址”，跳转至新的阅读地址进行原文件访问。
+- 文件名：默认会自动解析文件访问URL上的文件名。如果你手动填写，将会以手动填写的值为准。
+
+[点击查看API导入文档](/docs/development/openapi/dataset/#创建一个外部文件库集合商业版)
--- a/docSite/content/zh-cn/docs/course/kb.md
+++ b/docSite/content/zh-cn/docs/course/kb.md
@@ -0,0 +1,133 @@
+---
+title: " 打造高质量 AI 知识库(过期)"
+description: " 利用 FastGPT 打造高质量 AI 知识库"
+icon: "school"
+draft: false
+toc: true
+weight: 300
+---
+
+## 前言
+
+自从去年 12 月 ChatGPT 发布后，带动了新的一轮应用交互革命。尤其是 GPT-3.5 接口全面放开后，LLM 应用雨后春笋般快速涌现，但因为 GPT 的可控性、随机性和合规性等问题，很多应用场景都没法落地。
+
+3 月时候，在 Twitter 上刷到一个老哥使用 GPT 训练自己的博客记录，并且成本非常低（比起 FT）。他给出了一个完整的流程图：
+
+![向量搜索 GPT 流程图](/imgs/1.png)
+
+看到这个推文后，我灵机一动，应用场景就十分清晰了。直接上手开干，在经过不到 1 个月时间，FastGPT 在原来多助手管理基础上，加入了向量搜索。于是便有了最早的一期视频：
+
+{{< bilibili BV1Wo4y1p7i1 >}}
+
+3 个月过去了，FastGPT 延续着早期的思路去完善和扩展，目前在向量搜索 + LLM 线性问答方面的功能基本上完成了。不过我们始终没有出一期关于如何构建知识库的教程，趁着 V4 在开发中，我们计划介绍一期《如何在 FastGPT 上构建高质量知识库》，以便大家更好的使用。
+
+## FastGPT 知识库完整逻辑
+
+在正式构建知识库前，我们先来了解下 FastGPT 是如何进行知识库检索的。首先了解几个基本概念：
+
+1. 向量：将人类直观的语言（文字、图片、视频等）转成计算机可识别的语言（数组）。
+2. 向量相似度：两个向量之间可以进行计算，得到一个相似度，即代表：两个语言相似的程度。
+3. 语言大模型的一些特点：上下文理解、总结和推理。
+
+结合上述 3 个概念，便有了 “向量搜索 + 大模型 = 知识库问答” 的公式。下图是 FastGPT V3 中知识库问答功能的完整逻辑：
+
+![向量搜索 GPT 流程图](/imgs/2.png)
+
+与大部分其他知识库问答产品不一样的是， FastGPT 采用了 QA 问答对进行存储，而不是仅进行 chunk（文本分块）处理。目的是为了减少向量化内容的长度，让向量能更好的表达文本的含义，从而提高搜索精准度。
+此外 FastGPT 还提供了搜索测试和对话测试两种途径对数据进行调整，从而方便用户调整自己的数据。根据上述流程和方式，我们以构建一个 FastGPT 常见问题机器人为例，展示如何构建一个高质量的 AI 知识库。
+
+## 构建知识库应用
+
+首先，先创建一个 FastGPT 常见问题知识库
+
+![创建知识库应用](/imgs/3.png)
+
+### 通过 QA 拆分，获取基础知识
+
+我们先直接把 FastGPT Git 上一些已有文档，进行 QA 拆分，从而获取一些 FastGPT 基础的知识。下面是 README 例子。
+
+![QA 拆分示意图](/imgs/4.png)
+
+![](/imgs/5.png)
+
+### 修正 QA
+
+通过 README 我们一共得到了 11 组数据，整体的质量还是不错的，图片和链接都提取出来了。不过最后一个知识点出现了一些截断，我们需要手动的修正一下。
+
+此外，我们观察到第一列第三个知识点。这个知识点是介绍了 FastGPT 一些资源链接，但是 QA 拆分将答案放置在了 A 中，但通常来说用户的提问并不会直接问“有哪些链接”，通常会问：“部署教程”，“问题文档”之类的。因此，我们需要将这个知识点进行简单的一个处理，如下图：
+
+![手动修改知识库数据](/imgs/6.png)
+
+我们先来创建一个应用，看看效果如何。 首先需要去创建一个应用，并且在知识库中关联相关的知识库。另外还需要在配置页的提示词中，告诉 GPT：“知识库的范围”。
+
+![](/imgs/7.png)
+
+![README QA 拆分后效果](/imgs/8.png)
+
+整体的效果还是不错的，链接和对应的图片都可以顺利的展示。
+
+### 录入社区常见问题
+
+接着，我们再把 FastGPT 常见问题的文档导入，由于平时整理不当，我们只能手动的录入对应的问答。
+
+![手动录入知识库结果](/imgs/9.png)
+
+导入结果如上图。可以看到，我们均采用的是问答对的格式，而不是粗略的直接导入。目的就是为了模拟用户问题，进一步的提高向量搜索的匹配效果。可以为同一个问题设置多种问法，效果更佳。
+FastGPT 还提供了 openapi 功能，你可以在本地对特殊格式的文件进行处理后，再上传到 FastGPT，具体可以参考：[FastGPT Api Docs](https://doc.fastgpt.in/docs/development/openapi)
+
+## 知识库微调和参数调整
+
+FastGPT 提供了搜索测试和对话测试两种途径对知识库进行微调，我们先来使用搜索测试对知识库进行调整。我们建议你提前收集一些用户问题进行测试，根据预期效果进行跳转。可以先进行搜索测试调整，判断知识点是否合理。
+
+### 搜索测试
+
+![搜索测试作用](/imgs/10.png)
+
+你可能会遇到下面这种情况，由于“知识库”这个关键词导致一些无关内容的相似度也被搜索进去，此时就需要给第四条记录也增加一个“知识库”关键词，从而去提高它的相似度。
+
+![搜索测试结果](/imgs/11.png)
+
+![优化后的搜索测试结果](/imgs/12.png)
+
+### 提示词设置
+
+提示词的作用是引导模型对话的方向。在设置提示词时，遵守 2 个原则：
+
+1. 告诉 Gpt 回答什么方面内容。
+2. 给知识库一个基本描述，从而让 Gpt 更好的判断用户的问题是否属于知识库范围。
+
+![提示词设置](/imgs/13.png)
+
+### 更好的限定模型聊天范围
+
+首先，你可以通过调整知识库搜索时的相似度和最大搜索数量，实现从知识库层面限制聊天范围。通常我们可以设置相似度为 0.82，并设置空搜索回复内容。这意味着，如果用户的问题无法在知识库中匹配时，会直接回复预设的内容。
+
+![搜索参数设置](/imgs/14.png)
+
+![空搜索控制效果](/imgs/15.png)
+
+由于 openai 向量模型并不是针对中文，所以当问题中有一些知识库内容的关键词时，相似度
+会较高，此时无法从知识库层面进行限定。需要通过限定词进行调整，例如：
+
+> 我的问题如果不是关于 FastGPT 的，请直接回复：“我不确定”。你仅需要回答知识库中的内容，不在其中的内容，不需要回答。
+
+效果如下：
+
+![限定词效果](/imgs/16.png)
+
+当然，gpt35 在一定情况下依然是不可控的。
+
+### 通过对话调整知识库
+
+与搜索测试类似，你可以直接在对话页里，点击“引用”，来随时修改知识库内容。
+
+![查看答案引用](/imgs/17.png)
+
+## 总结
+
+1. 向量搜索是一种可以比较文本相似度的技术。
+2. 大模型具有总结和推理能力，可以从给定的文本中回答问题。
+3. 最有效的知识库构建方式是 QA 和手动构建。
+4. Q 的长度不宜过长。
+5. 需要调整提示词，来引导模型回答知识库内容。
+6. 可以通过调整搜索相似度、最大搜索数量和限定词来控制模型回复的范围。
--- a/docSite/content/zh-cn/docs/course/quick-start.md
+++ b/docSite/content/zh-cn/docs/course/quick-start.md
@@ -0,0 +1,54 @@
+---
+title: '快速上手'
+description: '快速体验 FastGPT 基础功能'
+icon: 'rocket_launch'
+draft: false
+toc: true
+weight: 101
+---
+
+更多使用技巧，[查看视屏教程](https://www.bilibili.com/video/BV1sH4y1T7s9)
+
+## 知识库
+
+开始前，请准备一份测试电子文档，WORD，PDF，TXT，excel，markdown 都可以，比如公司休假制度，不涉密的销售说辞，产品知识等等。
+
+这里使用 FastGPT 中文 README 文件为例。
+
+首先我们需要创建一个知识库。
+
+![](/imgs/create-rep.png)
+
+知识库创建完之后我们需要上传一点内容。
+
+上传内容这里有四种模式：
+- 手动输入：手动输入问答对，是最精准的数据
+- QA 拆分：选择文本文件，让AI自动生成问答对
+- 直接分段：选择文本文件，直接将其按分段进行处理
+- CSV 导入：批量导入问答对
+
+这里，我们选择 QA 拆分，让 AI 自动生成问答，若问答质量不高，可以后期手动修改。
+
+![](/imgs/upload-data.png)
+
+点击上传后我们需要等待数据处理完成，等到我们上传的文件状态为可用。
+
+![](/imgs/upload-data2.png)
+
+## 应用
+
+点击「应用」按钮来新建一个应用，这里有四个模板，我们选择「知识库 + 对话引导」。
+
+![](/imgs/create-app.png)
+
+应用创建后来再应用详情页找到「知识库」模块，把我们刚刚创建的知识库添加进去。
+
+![](/imgs/create-app2.png)
+
+添加完知识库后记得点击「保存并预览」，这样我们的应用就和知识库关联起来了。
+
+![](/imgs/create-app3.png)
+
+然后我们就可以愉快的开始聊天啦。
+
+![](/imgs/create-app4.png)
--- a/docSite/content/zh-cn/docs/course/websync.md
+++ b/docSite/content/zh-cn/docs/course/websync.md
@@ -0,0 +1,80 @@
+---
+title: 'Web 站点同步'
+description: 'FastGPT Web 站点同步功能介绍和使用方式'
+icon: 'language'
+draft: false
+toc: true
+weight: 105
+---
+
+![](/imgs/webSync1.jpg)
+
+该功能目前仅向商业版用户开放。
+
+## 什么是 Web 站点同步
+
+Web 站点同步利用爬虫的技术，可以通过一个入口网站，自动捕获`同域名`下的所有网站，目前最多支持`200`个子页面。出于合规与安全角度，FastGPT 仅支持`静态站点`的爬取，主要用于各个文档站点快速构建知识库。
+
+Tips: 国内的媒体站点基本不可用，公众号、csdn、知乎等。可以通过终端发送`curl`请求检测是否为静态站点，例如：
+
+```bash
+curl https://doc.fastgpt.in/docs/intro/
+```
+
+## 如何使用
+
+### 1. 新建知识库，选择 Web 站点同步
+
+![](/imgs/webSync2.png)
+
+![](/imgs/webSync3.png)
+
+### 2. 点击配置站点信息
+
+![](/imgs/webSync4.png)
+
+### 3. 填写网址和选择器
+
+![](/imgs/webSync5.jpg)
+
+好了， 现在点击开始同步，静等系统自动抓取网站信息即可。
+
+
+## 创建应用，绑定知识库
+
+![](/imgs/webSync6.webp)
+
+## 选择器如何使用
+
+选择器是 HTML CSS JS 的产物，你可以通过选择器来定位到你需要抓取的具体内容，而不是整个站点。使用方式为：
+
+### 首先打开浏览器调试面板（通常是 F12，或者【右键 - 检查】）
+
+![](/imgs/webSync7.webp)
+
+![](/imgs/webSync8.webp)
+
+### 输入对应元素的选择器
+
+[菜鸟教程 css 选择器](https://www.runoob.com/cssref/css-selectors.html)，具体选择器的使用方式可以参考菜鸟教程。
+
+上图中，我们选中了一个区域，对应的是`div`标签，它有 `data-prismjs-copy`, `data-prismjs-copy-success`, `data-prismjs-copy-error` 三个属性，这里我们用到一个就够。所以选择器是：
+**`div[data-prismjs-copy]`**
+
+除了属性选择器，常见的还有类和ID选择器。例如：
+
+![](/imgs/webSync9.webp)
+
+上图 class 里的是类名（可能包含多个类名，都是空格隔开的，选择一个即可），选择器可以为：**`.docs-content`**
+
+### 多选择器使用
+
+在开头的演示中，我们对 FastGPT 文档是使用了多选择器的方式来选择，通过逗号隔开了两个选择器。
+
+![](/imgs/webSync10.webp)
+
+我们希望选中上图两个标签中的内容，此时就需要两组选择器。一组是：`.docs-content .mb-0.d-flex`，含义是 `docs-content` 类下同时包含 `mb-0`和`d-flex` 两个类的子元素；
+
+另一组是`.docs-content div[data-prismjs-copy]`，含义是`docs-content` 类下包含`data-prismjs-copy`属性的`div`元素。
+
+把两组选择器用逗号隔开即可：`.docs-content .mb-0.d-flex, .docs-content div[data-prismjs-copy]`