doc and config rerank (#475)

2025-07-26 15:54:11 +00:00 · 2023-11-16 10:46:47 +08:00
parent cd3acb44ab
commit 16103029f5
18 changed files with 158 additions and 55 deletions
--- a/docSite/content/docs/use-cases/datasetEngine.md
+++ b/docSite/content/docs/use-cases/datasetEngine.md
@@ -7,7 +7,7 @@ toc: true
 weight: 311
 ---

-# 理解向量
+## 理解向量

 FastGPT 采用了 RAG 中的 Embedding 方案构建知识库，要使用好 FastGPT 需要简单的理解`Embedding`向量是如何工作的及其特点。

@@ -21,7 +21,7 @@ FastGPT 采用了 RAG 中的 Embedding 方案构建知识库，要使用好 Fast

 检索器的精度比较容易解决，向量模型的训练略复杂，因此数据和检索词质量优化成了一个重要的环节。

-# FastGPT 中向量的结构设计
+## FastGPT 中向量的结构设计

 FastGPT 采用了 `PostgresSQL` 的 `PG Vector` 插件作为向量检索器，索引为`HNSW`。且`PostgresSQL`仅用于向量检索，`MongoDB`用于其他数据的存取。

@@ -29,13 +29,13 @@ FastGPT 采用了 `PostgresSQL` 的 `PG Vector` 插件作为向量检索器，

 ![](/imgs/datasetSetting1.png)

-## 多向量的目的和使用方式
+### 多向量的目的和使用方式

-在一组数据中，如果我们希望它尽可能长，但语义又要在向量中尽可能提现，则没有办法通过一组向量来表示。因此，我们采用了多向量映射的方式，将一组数据映射到多组向量中，从而保障数据的完整性和语义的提现。
+在一组向量中，内容的长度和语义的丰富度通常是矛盾的，无法兼得。因此，FastGPT 采用了多向量映射的方式，将一组数据映射到多组向量中，从而保障数据的完整性和语义的丰富度。

 你可以为一组较长的文本，添加多组向量，从而在检索时，只要其中一组向量被检索到，该数据也将被召回。

-## 提高向量搜索精度的方法
+### 提高向量搜索精度的方法

 1. 更好分词分段：当一段话的结构和语义是完整的，并且是单一的，精度也会提高。因此，许多系统都会优化分词器，尽可能的保障每组数据的完整性。
 2. 精简`index`的内容，减少向量内容的长度：当`index`的内容更少，更准确时，检索精度自然会提高。但与此同时，会牺牲一定的检索范围，适合答案较为严格的场景。
@@ -43,7 +43,7 @@ FastGPT 采用了 `PostgresSQL` 的 `PG Vector` 插件作为向量检索器，
 4. 优化检索词：在实际使用过程中，用户的问题通常是模糊的或是缺失的，并不一定是完整清晰的问题。因此优化用户的问题（检索词）很大程度上也可以提高精度。
 5. 微调向量模型：由于市面上直接使用的向量模型都是通用型模型，在特定领域的检索精度并不高，因此微调向量模型可以很大程度上提高专业领域的检索效果。

-# FastGPT 构建知识库方案
+## FastGPT 构建知识库方案

 在 FastGPT 中，整个知识库由库、集合和数据 3 部分组成。集合可以简单理解为一个`文件`。一个`库`中可以包含多个`集合`，一个`集合`中可以包含多组`数据`。最小的搜索单位是`库`，也就是说，知识库搜索时，是对整个`库`进行搜索，而集合仅是为了对数据进行分类管理，与搜索效果无关。（起码目前还是）

@@ -51,7 +51,7 @@ FastGPT 采用了 `PostgresSQL` 的 `PG Vector` 插件作为向量检索器，
 | --- | --- | --- |
 | ![](/imgs/datasetEngine1.png) | ![](/imgs/datasetEngine2.png) | ![](/imgs/datasetEngine3.png) |

-## 导入数据方案1 - 直接分段导入
+### 导入数据方案1 - 直接分段导入

 选择文件导入时，可以选择直接分段方案。直接分段会利用`句子分词器`对文本进行一定长度拆分，最终分割中多组的`q`。如果使用了直接分段方案，我们建议在`应用`设置`引用提示词`时，使用`通用模板`即可，无需选择`问答模板`。

@@ -60,7 +60,7 @@ FastGPT 采用了 `PostgresSQL` 的 `PG Vector` 插件作为向量检索器，
 | ![](/imgs/datasetEngine4.png) | ![](/imgs/datasetEngine5.png) |


-## 导入数据方案2 - QA导入
+### 导入数据方案2 - QA导入

 选择文件导入时，可以选择QA拆分方案。仍然需要使用到`句子分词器`对文本进行拆分，但长度比直接分段大很多。在导入后，会先调用`大模型`对分段进行学习，并给出一些`问题`和`答案`，最终问题和答案会一起被存储到`q`中。注意，新版的 FastGPT 为了提高搜索的范围，不再将问题和答案分别存储到 qa 中。

@@ -68,7 +68,7 @@ FastGPT 采用了 `PostgresSQL` 的 `PG Vector` 插件作为向量检索器，
 | --- | --- |
 | ![](/imgs/datasetEngine6.png) | ![](/imgs/datasetEngine7.png) |

-## 导入数据方案3 - 手动录入
+### 导入数据方案3 - 手动录入

 在 FastGPT 中，你可以在任何一个`集合`中点击右上角的`插入`手动录入知识点，或者使用`标注`功能手动录入。被搜索的内容为`q`，补充内容(可选)为`a`。

@@ -76,16 +76,16 @@ FastGPT 采用了 `PostgresSQL` 的 `PG Vector` 插件作为向量检索器，
 | --- | --- | --- |
 | ![](/imgs/datasetEngine8.png) | ![](/imgs/datasetEngine9.png) | ![](/imgs/datasetEngine10.png) |

-## 导入数据方案4 - CSV录入
+### 导入数据方案4 - CSV录入

 有些数据较为独特，可能需要单独的进行预处理分割后再导入 FastGPT，此时可以选择 csv 导入，可批量的将处理好的数据导入。

 ![](/imgs/datasetEngine11.png)

-## 导入数据方案5 - API导入
+### 导入数据方案5 - API导入

 参考[FastGPT OpenAPI使用](/docs/development/openapi/#知识库添加数据)。

-# QA的组合与引用提示词构建
+## QA的组合与引用提示词构建

 参考[引用模板与引用提示词示例](/docs/use-cases/ai_settings/#示例)