Add image index and pdf parse (#3956)

* feat: think tag parse * feat: parse think tag test * feat: pdf parse ux * feat: doc2x parse * perf: rewrite training mode setting * feat: image parse queue * perf: image index * feat: image parse process * feat: add init sh * fix: ts
2025-07-21 03:35:36 +00:00 · 2025-03-03 23:08:29 +08:00
parent 08b6f594df
commit adf5377ebe
106 changed files with 2337 additions and 1454 deletions
--- a/docSite/content/zh-cn/docs/development/configuration.md
+++ b/docSite/content/zh-cn/docs/development/configuration.md
@@ -23,6 +23,7 @@ weight: 707
  "systemEnv": {
    "vectorMaxProcess": 15, // 向量处理线程数量
    "qaMaxProcess": 15, // 问答拆分线程数量
+    "vlmMaxProcess": 15, // 图片理解模型最大处理进程
    "tokenWorkers": 50, // Token 计算线程保持数，会持续占用内存，不能设置太大。
    "pgHNSWEfSearch": 100 // 向量搜索参数。越大，搜索越精确，但是速度越慢。设置为100，有99%+精度。
  }
--- a/docSite/content/zh-cn/docs/development/intro.md
+++ b/docSite/content/zh-cn/docs/development/intro.md
@@ -70,6 +70,7 @@ Mongo 数据库需要注意，需要注意在连接地址中增加 `directConnec

 - `vectorMaxProcess`: 向量生成最大进程，根据数据库和 key 的并发数来决定，通常单个 120 号，2c4g 服务器设置 10~15。
 - `qaMaxProcess`: QA 生成最大进程
+- `vlmMaxProcess`: 图片理解模型最大进程
 - `pgHNSWEfSearch`: PostgreSQL vector 索引参数，越大搜索精度越高但是速度越慢，具体可看 pgvector 官方说明。

 ### 5. 运行
--- a/docSite/content/zh-cn/docs/development/migration/docker_db.md
+++ b/docSite/content/zh-cn/docs/development/migration/docker_db.md
@@ -7,9 +7,18 @@ draft: false
 images: []
 ---

-## Copy文件
+## 1. 停止服务
+
+```bash
+docker-compose down
+```
+
+
+## 2. Copy文件夹

 Docker 部署数据库都会通过 volume 挂载本地的目录进入容器，如果要迁移，直接复制这些目录即可。

 `PG 数据`: pg/data
-`Mongo 数据`: mongo/data
+`Mongo 数据`: mongo/data
+
+直接把pg 和 mongo目录全部复制走即可。
--- a/docSite/content/zh-cn/docs/development/openapi/dataset.md
+++ b/docSite/content/zh-cn/docs/development/openapi/dataset.md
@@ -297,7 +297,7 @@ curl --location --request DELETE 'http://localhost:3000/api/core/dataset/delete?
 | --- | --- | --- |
 | datasetId | 知识库ID | ✅ |
 | parentId： | 父级ID，不填则默认为根目录 |  |
-| trainingType | 训练模式。chunk: 按文本长度进行分割;qa: QA拆分;auto: 增强训练 | ✅ |
+| trainingType | 数据处理方式。chunk: 按文本长度进行分割;qa: 问答对提取 | ✅ |
 | chunkSize | 预估块大小 |  |
 | chunkSplitter | 自定义最高优先分割符号 |  |
 | qaPrompt | qa拆分提示词 |  |
@@ -1079,7 +1079,7 @@ curl --location --request POST 'https://api.fastgpt.in/api/core/dataset/data/pus
 --header 'Content-Type: application/json' \
 --data-raw '{
     "collectionId": "64663f451ba1676dbdef0499",
-    "trainingMode": "chunk",
+    "trainingType": "chunk",
    "prompt": "可选。qa 拆分引导词，chunk 模式下忽略",
    "billId": "可选。如果有这个值，本次的数据会被聚合到一个订单中，这个值可以重复使用。可以参考 [创建训练订单] 获取该值。",
     "data": [
--- a/docSite/content/zh-cn/docs/development/upgrading/490.md
+++ b/docSite/content/zh-cn/docs/development/upgrading/490.md
@@ -0,0 +1,27 @@
+---
+title: 'V4.9.0(进行中)'
+description: 'FastGPT V4.9.0 更新说明'
+icon: 'upgrade'
+draft: false
+toc: true
+weight: 803
+---
+
+
+## 重要更新
+
+1. 弃用 - 弃用旧版本地文件上传 API：/api/core/dataset/collection/create/file（以前仅商业版可用的 API，该接口已放切换成：/api/core/dataset/collection/create/localFile）
+2. 停止维护，即将弃用 - 外部文件库相关 API，可通过 API 文件库替代。
+3. API更新 - 上传文件至知识库、创建连接集合、API 文件库、推送分块数据等接口，`trainingType`字段未来仅支持`chunk`和`QA`两种模式。增强索引模式将设置单独字段：`autoIndexes`，目前仍有适配旧版`trainingType=auto`代码，但请尽快变更成新接口类型。具体可见：[知识库 OpenAPI 文档](/docs/development/openapi/dataset.md)
+
+
+## 🚀 新增内容
+
+1. PDF增强解析交互添加到页面上。同时内嵌 Doc2x 服务，可直接使用 Doc2x 服务解析 PDF 文件。
+2. 图片自动标注，同时修改知识库文件上传部分数据逻辑和交互。
+
+## ⚙️ 优化
+
+1. 知识库数据不再限制索引数量，可无限自定义。同时可自动更新输入文本的索引，不影响自定义索引。
+
+## 🐛 修复