update doc search engine (#5386)

* update doc search engine * custom tokenizer * tokenizer
2025-10-16 08:01:18 +00:00 · 2025-08-04 22:07:52 +08:00
parent 545d8150f2
commit 6a0b0b1991
25 changed files with 432 additions and 324 deletions
--- a/document/content/docs/faq/other.mdx
+++ b/document/content/docs/faq/other.mdx
@@ -8,4 +8,4 @@ title: 其他问题

 ## 想做多用户

-开源版未支持多用户，仅商业版支持。
+社区版未支持多用户，仅商业版支持。
--- a/document/content/docs/introduction/commercial.mdx
+++ b/document/content/docs/introduction/commercial.mdx
@@ -7,11 +7,11 @@ import { Alert } from '@/components/docs/Alert';

 ## 简介

-FastGPT 商业版是基于 FastGPT 开源版的增强版本，增加了一些独有的功能。只需安装一个商业版镜像，并在开源版基础上填写对应的内网地址，即可快速使用商业版。
+FastGPT 商业版是基于 FastGPT 社区版的增强版本，增加了一些独有的功能。只需安装一个商业版镜像，并在社区版基础上填写对应的内网地址，即可快速使用商业版。

 ## 功能差异

-|                                | 开源版                                     | 商业版 | Saas 版 |
+|                                | 社区版                                     | 商业版 | Saas 版 |
 | ------------------------------ | ------------------------------------------ | ------ | ------- |
 | **应用构建**                   |                                            |        |         |
 | 工作流编排                     | ✅                                         | ✅     | ✅      |
@@ -89,13 +89,13 @@ FastGPT 商业版软件根据不同的部署方式，分为 3 类收费模式。

 ### 如何交付？

-完整版应用 = 开源版镜像 + 商业版镜像
+完整版应用 = 社区版镜像 + 商业版镜像

 我们会提供一个商业版镜像给你使用，该镜像需要一个 License 启动。

 ### 二次开发如何操作？

-可以修改开源版部分代码，不支持修改商业版镜像。完整版本=开源版+商业版镜像，所以是可以修改部分内容的。但是如果二开了，后续则需要自己进行代码合并升级。
+可以修改社区版部分代码，不支持修改商业版镜像。完整版本=社区版+商业版镜像，所以是可以修改部分内容的。但是如果二开了，后续则需要自己进行代码合并升级。

 ### Sealos 运行费用

--- a/document/content/docs/introduction/development/configuration.mdx
+++ b/document/content/docs/introduction/development/configuration.mdx
@@ -5,12 +5,14 @@ description: FastGPT 配置参数介绍

 由于环境变量不利于配置复杂的内容，新版 FastGPT 采用了 ConfigMap 的形式挂载配置文件，你可以在 `projects/app/data/config.json` 看到默认的配置文件。可以参考 [docker-compose 快速部署](/docs/development/docker/) 来挂载配置文件。

-**开发环境下**，你需要将示例配置文件 `config.json` 复制成 `config.local.json` 文件才会生效。  
+**开发环境下**，你需要将示例配置文件 `config.json` 复制成 `config.local.json` 文件才会生效。

 下面配置文件示例中包含了系统参数和各个模型配置：

 ## 4.8.20+ 版本新配置文件示例
+
 > 从4.8.20版本开始，模型在页面中进行配置。
+
 ```json
 {
  "feConfigs": {
@@ -22,7 +24,8 @@ description: FastGPT 配置参数介绍
    "vlmMaxProcess": 15, // 图片理解模型最大处理进程
    "tokenWorkers": 50, // Token 计算线程保持数，会持续占用内存，不能设置太大。
    "hnswEfSearch": 100, // 向量搜索参数，仅对 PG 和 OB 生效。越大，搜索越精确，但是速度越慢。设置为100，有99%+精度。
-    "customPdfParse": { // 4.9.0 新增配置
+    "customPdfParse": {
+      // 4.9.0 新增配置
      "url": "", // 自定义 PDF 解析服务地址
      "key": "", // 自定义 PDF 解析服务密钥
      "doc2xKey": "", // doc2x 服务密钥
@@ -57,7 +60,7 @@ description: FastGPT 配置参数介绍

 #### 2. 修改 FastGPT 配置文件

-开源版用户在 `config.json` 文件中添加 `systemEnv.customPdfParse.doc2xKey` 配置，并填写上申请到的 API Key。并重启服务。
+社区版用户在 `config.json` 文件中添加 `systemEnv.customPdfParse.doc2xKey` 配置，并填写上申请到的 API Key。并重启服务。

 商业版用户在 Admin 后台根据表单指引填写 Doc2x 服务密钥。

--- a/document/content/docs/introduction/development/custom-models/marker.mdx
+++ b/document/content/docs/introduction/development/custom-models/marker.mdx
@@ -9,7 +9,7 @@ PDF 是一个相对复杂的文件格式，在 FastGPT 内置的 pdf 解析器

 市面上目前有多种解析 PDF 的方法，比如使用 [Marker](https://github.com/VikParuchuri/marker)，该项目使用了 Surya 模型，基于视觉解析，可以有效提取图片、表格、公式等复杂内容。

-在 `FastGPT v4.9.0` 版本中，开源版用户可以在`config.json`文件中添加`systemEnv.customPdfParse`配置，来使用 Marker 解析 PDF 文件。商业版用户直接在 Admin 后台根据表单指引填写即可。需重新拉取 Marker 镜像，接口格式已变动。
+在 `FastGPT v4.9.0` 版本中，社区版用户可以在`config.json`文件中添加`systemEnv.customPdfParse`配置，来使用 Marker 解析 PDF 文件。商业版用户直接在 Admin 后台根据表单指引填写即可。需重新拉取 Marker 镜像，接口格式已变动。

 ## 使用教程

@@ -23,6 +23,7 @@ PDF 是一个相对复杂的文件格式，在 FastGPT 内置的 pdf 解析器
 docker pull crpi-h3snc261q1dosroc.cn-hangzhou.personal.cr.aliyuncs.com/marker11/marker_images:v0.2
 docker run --gpus all -itd -p 7231:7232 --name model_pdf_v2 -e PROCESSES_PER_GPU="2" crpi-h3snc261q1dosroc.cn-hangzhou.personal.cr.aliyuncs.com/marker11/marker_images:v0.2
 ```
+
 ### 2. 添加 FastGPT 文件配置

 ```json
@@ -52,7 +53,7 @@ docker run --gpus all -itd -p 7231:7232 --name model_pdf_v2 -e PROCESSES_PER_GPU

 ```
 [Info] 2024-12-05 15:04:42 Parsing files from an external service
-[Info] 2024-12-05 15:07:08 Custom file parsing is complete, time: 1316ms 
+[Info] 2024-12-05 15:07:08 Custom file parsing is complete, time: 1316ms
 ```

 然后你就可以发现，通过 Marker 解析出来的 pdf 会携带图片链接：
@@ -63,14 +64,13 @@ docker run --gpus all -itd -p 7231:7232 --name model_pdf_v2 -e PROCESSES_PER_GPU

 ![alt text](/imgs/marker3.png)

-
 ## 效果展示

 以清华的 [ChatDev Communicative Agents for Software Develop.pdf](https://arxiv.org/abs/2307.07924) 为例，展示 Marker 解析的效果：

-|  |  |  |
-| --- | --- | --- |
-| ![alt text](/imgs/image-11.png) | ![alt text](/imgs/image-12.png) | ![alt text](/imgs/image-13.png)  |
+|                                 |                                 |                                 |
+| ------------------------------- | ------------------------------- | ------------------------------- |
+| ![alt text](/imgs/image-11.png) | ![alt text](/imgs/image-12.png) | ![alt text](/imgs/image-13.png) |
 | ![alt text](/imgs/image-14.png) | ![alt text](/imgs/image-15.png) | ![alt text](/imgs/image-16.png) |

 上图是分块后的结果，下图是 pdf 原文。整体图片、公式、表格都可以提取出来，效果还是杠杠的。
@@ -95,5 +95,5 @@ CUSTOM_READ_FILE_URL=http://xxxx.com/v1/parse/file
 CUSTOM_READ_FILE_EXTENSION=pdf
 ```

-* CUSTOM_READ_FILE_URL - 自定义解析服务的地址, host改成解析服务的访问地址，path 不能变动。
-* CUSTOM_READ_FILE_EXTENSION - 支持的文件后缀，多个文件类型，可用逗号隔开。
+- CUSTOM_READ_FILE_URL - 自定义解析服务的地址, host改成解析服务的访问地址，path 不能变动。
+- CUSTOM_READ_FILE_EXTENSION - 支持的文件后缀，多个文件类型，可用逗号隔开。
--- a/document/content/docs/upgrading/4-8/462.mdx
+++ b/document/content/docs/upgrading/4-8/462.mdx
@@ -16,11 +16,12 @@ curl --location --request POST 'https://{{host}}/api/admin/initv462' \
 ```

 初始化说明：
+
 1. 初始化全文索引

 ## V4.6.2 功能介绍

-1. 新增 - 全文索引（需配合 Rerank 模型，在看怎么放到开源版，模型接口比较特殊）
+1. 新增 - 全文索引（需配合 Rerank 模型，在看怎么放到社区版，模型接口比较特殊）
 2. 新增 - 插件来源（预计4.7/4.8版本会正式使用）
 3. 优化 - PDF读取
 4. 优化 - docx文件读取，转成 markdown 并保留其图片内容
--- a/document/content/docs/upgrading/4-8/47.mdx
+++ b/document/content/docs/upgrading/4-8/47.mdx
@@ -18,6 +18,7 @@ curl --location --request POST 'https://{{host}}/api/admin/initv47' \
 ```

 脚本功能：
+
 1. 初始化插件的 parentId

 ## 3. 升级 ReRank 模型
@@ -31,18 +32,17 @@ cohere的重排模型对中文不是很好，感觉不如 bge 的好用，接入

 ```json
 {
-    "reRankModels": [
-        {
-            "model": "rerank-multilingual-v2.0", // 这里的 model 需要对应 cohere 的模型名
-            "name": "检索重排", // 随意
-            "requestUrl": "https://api.cohere.ai/v1/rerank",
-            "requestAuth": "Coherer上申请的key"
-        }
-    ]
+  "reRankModels": [
+    {
+      "model": "rerank-multilingual-v2.0", // 这里的 model 需要对应 cohere 的模型名
+      "name": "检索重排", // 随意
+      "requestUrl": "https://api.cohere.ai/v1/rerank",
+      "requestAuth": "Coherer上申请的key"
+    }
+  ]
 }
 ```

-
 ## V4.7 更新说明

 1. 新增 - 工具调用模块，可以让LLM模型根据用户意图，动态的选择其他模型或插件执行。
@@ -57,7 +57,7 @@ cohere的重排模型对中文不是很好，感觉不如 bge 的好用，接入
 10. 优化 - 变量输入弹窗。
 11. 优化 - docker 部署，自动初始化副本集。
 12. 优化 - 浏览器读取文件自动推断编码，减少乱码情况。
-13. 修复 - 开源版重排选不上。
+13. 修复 - 社区版重排选不上。
 14. 修复 - http 请求 body，不使用时，传入undefined。（会造成部分GET请求失败）
 15. 新增 - 支持 http url 使用变量。
 16. 修复 - 469 的提取的提示词容易造成幻觉。
--- a/document/content/docs/upgrading/4-9/4910.mdx
+++ b/document/content/docs/upgrading/4-9/4910.mdx
@@ -23,7 +23,7 @@ description: FastGPT V4.9.10 更新说明
 2. 知识库预处理参数增加 “分块条件”，可控制某些情况下不进行分块处理。
 3. 知识库预处理参数增加 “段落优先” 模式，可控制最大段落深度。原“长度优先”模式，不再内嵌段落优先逻辑。
 4. 工作流调整为单向接入和接出，支持快速的添加下一步节点。
-5. 开放飞书和语雀知识库到开源版。
+5. 开放飞书和语雀知识库到社区版。
 6. gemini 和 claude 最新模型预设。

 ## ⚙️ 优化
--- a/document/content/docs/upgrading/4-9/496.mdx
+++ b/document/content/docs/upgrading/4-9/496.mdx
@@ -29,6 +29,7 @@ description: FastGPT V4.9.6 更新说明
 3. 连续工具调用，上下文截断异常

 ## 升级指南
+
 ### 1. 做好数据备份

 ### 2. 部署 MCP server 服务
@@ -39,15 +40,15 @@ description: FastGPT V4.9.6 更新说明

 ```yml
 fastgpt-mcp-server:
-    container_name: fastgpt-mcp-server
-    image: ghcr.io/labring/fastgpt-mcp_server:v4.9.6
-    ports:
-      - 3005:3000
-    networks:
-      - fastgpt
-    restart: always
-    environment:
-      - FASTGPT_ENDPOINT=http://fastgpt:3000
+  container_name: fastgpt-mcp-server
+  image: ghcr.io/labring/fastgpt-mcp_server:v4.9.6
+  ports:
+    - 3005:3000
+  networks:
+    - fastgpt
+  restart: always
+  environment:
+    - FASTGPT_ENDPOINT=http://fastgpt:3000
 ```

 #### Sealos 部署
@@ -56,14 +57,15 @@ fastgpt-mcp-server:

 ### 3. 修改 FastGPT 容器环境变量

-#### 开源版
+#### 社区版

 修改`config.json`配置文件，增加: `"feconfigs.mcpServerProxyEndpoint": "fastgpt-mcp-server 的访问地址"`， 末尾不要携带/，例如:
+
 ```json
 {
  "feConfigs": {
    "lafEnv": "https://laf.dev",
-    "mcpServerProxyEndpoint": "https://mcp.fastgpt.cn" 
+    "mcpServerProxyEndpoint": "https://mcp.fastgpt.cn"
  }
 }
 ```