update doc search engine (#5386)

* update doc search engine * custom tokenizer * tokenizer
2025-10-17 00:14:51 +00:00 · 2025-08-04 22:07:52 +08:00
parent 545d8150f2
commit 6a0b0b1991
25 changed files with 432 additions and 324 deletions
--- a/document/content/docs/introduction/development/configuration.mdx
+++ b/document/content/docs/introduction/development/configuration.mdx
@@ -5,12 +5,14 @@ description: FastGPT 配置参数介绍

 由于环境变量不利于配置复杂的内容，新版 FastGPT 采用了 ConfigMap 的形式挂载配置文件，你可以在 `projects/app/data/config.json` 看到默认的配置文件。可以参考 [docker-compose 快速部署](/docs/development/docker/) 来挂载配置文件。

-**开发环境下**，你需要将示例配置文件 `config.json` 复制成 `config.local.json` 文件才会生效。  
+**开发环境下**，你需要将示例配置文件 `config.json` 复制成 `config.local.json` 文件才会生效。

 下面配置文件示例中包含了系统参数和各个模型配置：

 ## 4.8.20+ 版本新配置文件示例
+
 > 从4.8.20版本开始，模型在页面中进行配置。
+
 ```json
 {
  "feConfigs": {
@@ -22,7 +24,8 @@ description: FastGPT 配置参数介绍
    "vlmMaxProcess": 15, // 图片理解模型最大处理进程
    "tokenWorkers": 50, // Token 计算线程保持数，会持续占用内存，不能设置太大。
    "hnswEfSearch": 100, // 向量搜索参数，仅对 PG 和 OB 生效。越大，搜索越精确，但是速度越慢。设置为100，有99%+精度。
-    "customPdfParse": { // 4.9.0 新增配置
+    "customPdfParse": {
+      // 4.9.0 新增配置
      "url": "", // 自定义 PDF 解析服务地址
      "key": "", // 自定义 PDF 解析服务密钥
      "doc2xKey": "", // doc2x 服务密钥
@@ -57,7 +60,7 @@ description: FastGPT 配置参数介绍

 #### 2. 修改 FastGPT 配置文件

-开源版用户在 `config.json` 文件中添加 `systemEnv.customPdfParse.doc2xKey` 配置，并填写上申请到的 API Key。并重启服务。
+社区版用户在 `config.json` 文件中添加 `systemEnv.customPdfParse.doc2xKey` 配置，并填写上申请到的 API Key。并重启服务。

 商业版用户在 Admin 后台根据表单指引填写 Doc2x 服务密钥。

--- a/document/content/docs/introduction/development/custom-models/marker.mdx
+++ b/document/content/docs/introduction/development/custom-models/marker.mdx
@@ -9,7 +9,7 @@ PDF 是一个相对复杂的文件格式，在 FastGPT 内置的 pdf 解析器

 市面上目前有多种解析 PDF 的方法，比如使用 [Marker](https://github.com/VikParuchuri/marker)，该项目使用了 Surya 模型，基于视觉解析，可以有效提取图片、表格、公式等复杂内容。

-在 `FastGPT v4.9.0` 版本中，开源版用户可以在`config.json`文件中添加`systemEnv.customPdfParse`配置，来使用 Marker 解析 PDF 文件。商业版用户直接在 Admin 后台根据表单指引填写即可。需重新拉取 Marker 镜像，接口格式已变动。
+在 `FastGPT v4.9.0` 版本中，社区版用户可以在`config.json`文件中添加`systemEnv.customPdfParse`配置，来使用 Marker 解析 PDF 文件。商业版用户直接在 Admin 后台根据表单指引填写即可。需重新拉取 Marker 镜像，接口格式已变动。

 ## 使用教程

@@ -23,6 +23,7 @@ PDF 是一个相对复杂的文件格式，在 FastGPT 内置的 pdf 解析器
 docker pull crpi-h3snc261q1dosroc.cn-hangzhou.personal.cr.aliyuncs.com/marker11/marker_images:v0.2
 docker run --gpus all -itd -p 7231:7232 --name model_pdf_v2 -e PROCESSES_PER_GPU="2" crpi-h3snc261q1dosroc.cn-hangzhou.personal.cr.aliyuncs.com/marker11/marker_images:v0.2
 ```
+
 ### 2. 添加 FastGPT 文件配置

 ```json
@@ -52,7 +53,7 @@ docker run --gpus all -itd -p 7231:7232 --name model_pdf_v2 -e PROCESSES_PER_GPU

 ```
 [Info] 2024-12-05 15:04:42 Parsing files from an external service
-[Info] 2024-12-05 15:07:08 Custom file parsing is complete, time: 1316ms 
+[Info] 2024-12-05 15:07:08 Custom file parsing is complete, time: 1316ms
 ```

 然后你就可以发现，通过 Marker 解析出来的 pdf 会携带图片链接：
@@ -63,14 +64,13 @@ docker run --gpus all -itd -p 7231:7232 --name model_pdf_v2 -e PROCESSES_PER_GPU

 ![alt text](/imgs/marker3.png)

-
 ## 效果展示

 以清华的 [ChatDev Communicative Agents for Software Develop.pdf](https://arxiv.org/abs/2307.07924) 为例，展示 Marker 解析的效果：

-|  |  |  |
-| --- | --- | --- |
-| ![alt text](/imgs/image-11.png) | ![alt text](/imgs/image-12.png) | ![alt text](/imgs/image-13.png)  |
+|                                 |                                 |                                 |
+| ------------------------------- | ------------------------------- | ------------------------------- |
+| ![alt text](/imgs/image-11.png) | ![alt text](/imgs/image-12.png) | ![alt text](/imgs/image-13.png) |
 | ![alt text](/imgs/image-14.png) | ![alt text](/imgs/image-15.png) | ![alt text](/imgs/image-16.png) |

 上图是分块后的结果，下图是 pdf 原文。整体图片、公式、表格都可以提取出来，效果还是杠杠的。
@@ -95,5 +95,5 @@ CUSTOM_READ_FILE_URL=http://xxxx.com/v1/parse/file
 CUSTOM_READ_FILE_EXTENSION=pdf
 ```

-* CUSTOM_READ_FILE_URL - 自定义解析服务的地址, host改成解析服务的访问地址，path 不能变动。
-* CUSTOM_READ_FILE_EXTENSION - 支持的文件后缀，多个文件类型，可用逗号隔开。
+- CUSTOM_READ_FILE_URL - 自定义解析服务的地址, host改成解析服务的访问地址，path 不能变动。
+- CUSTOM_READ_FILE_EXTENSION - 支持的文件后缀，多个文件类型，可用逗号隔开。