update doc search engine (#5386)

* update doc search engine

* custom tokenizer

* tokenizer
This commit is contained in:
Archer
2025-08-04 22:07:52 +08:00
committed by GitHub
parent 545d8150f2
commit 6a0b0b1991
25 changed files with 432 additions and 324 deletions

View File

@@ -16,11 +16,12 @@ curl --location --request POST 'https://{{host}}/api/admin/initv462' \
```
初始化说明:
1. 初始化全文索引
## V4.6.2 功能介绍
1. 新增 - 全文索引(需配合 Rerank 模型,在看怎么放到开源版,模型接口比较特殊)
1. 新增 - 全文索引(需配合 Rerank 模型,在看怎么放到社区版,模型接口比较特殊)
2. 新增 - 插件来源预计4.7/4.8版本会正式使用)
3. 优化 - PDF读取
4. 优化 - docx文件读取转成 markdown 并保留其图片内容

View File

@@ -18,6 +18,7 @@ curl --location --request POST 'https://{{host}}/api/admin/initv47' \
```
脚本功能:
1. 初始化插件的 parentId
## 3. 升级 ReRank 模型
@@ -31,18 +32,17 @@ cohere的重排模型对中文不是很好感觉不如 bge 的好用,接入
```json
{
"reRankModels": [
{
"model": "rerank-multilingual-v2.0", // 这里的 model 需要对应 cohere 的模型名
"name": "检索重排", // 随意
"requestUrl": "https://api.cohere.ai/v1/rerank",
"requestAuth": "Coherer上申请的key"
}
]
"reRankModels": [
{
"model": "rerank-multilingual-v2.0", // 这里的 model 需要对应 cohere 的模型名
"name": "检索重排", // 随意
"requestUrl": "https://api.cohere.ai/v1/rerank",
"requestAuth": "Coherer上申请的key"
}
]
}
```
## V4.7 更新说明
1. 新增 - 工具调用模块可以让LLM模型根据用户意图动态的选择其他模型或插件执行。
@@ -57,7 +57,7 @@ cohere的重排模型对中文不是很好感觉不如 bge 的好用,接入
10. 优化 - 变量输入弹窗。
11. 优化 - docker 部署,自动初始化副本集。
12. 优化 - 浏览器读取文件自动推断编码,减少乱码情况。
13. 修复 - 开源版重排选不上。
13. 修复 - 社区版重排选不上。
14. 修复 - http 请求 body不使用时传入undefined。会造成部分GET请求失败
15. 新增 - 支持 http url 使用变量。
16. 修复 - 469 的提取的提示词容易造成幻觉。

View File

@@ -23,7 +23,7 @@ description: FastGPT V4.9.10 更新说明
2. 知识库预处理参数增加 “分块条件”,可控制某些情况下不进行分块处理。
3. 知识库预处理参数增加 “段落优先” 模式,可控制最大段落深度。原“长度优先”模式,不再内嵌段落优先逻辑。
4. 工作流调整为单向接入和接出,支持快速的添加下一步节点。
5. 开放飞书和语雀知识库到开源版。
5. 开放飞书和语雀知识库到社区版。
6. gemini 和 claude 最新模型预设。
## ⚙️ 优化

View File

@@ -29,6 +29,7 @@ description: FastGPT V4.9.6 更新说明
3. 连续工具调用,上下文截断异常
## 升级指南
### 1. 做好数据备份
### 2. 部署 MCP server 服务
@@ -39,15 +40,15 @@ description: FastGPT V4.9.6 更新说明
```yml
fastgpt-mcp-server:
container_name: fastgpt-mcp-server
image: ghcr.io/labring/fastgpt-mcp_server:v4.9.6
ports:
- 3005:3000
networks:
- fastgpt
restart: always
environment:
- FASTGPT_ENDPOINT=http://fastgpt:3000
container_name: fastgpt-mcp-server
image: ghcr.io/labring/fastgpt-mcp_server:v4.9.6
ports:
- 3005:3000
networks:
- fastgpt
restart: always
environment:
- FASTGPT_ENDPOINT=http://fastgpt:3000
```
#### Sealos 部署
@@ -56,14 +57,15 @@ fastgpt-mcp-server:
### 3. 修改 FastGPT 容器环境变量
#### 开源
#### 社区
修改`config.json`配置文件,增加: `"feconfigs.mcpServerProxyEndpoint": "fastgpt-mcp-server 的访问地址"` 末尾不要携带/,例如:
```json
{
"feConfigs": {
"lafEnv": "https://laf.dev",
"mcpServerProxyEndpoint": "https://mcp.fastgpt.cn"
"mcpServerProxyEndpoint": "https://mcp.fastgpt.cn"
}
}
```