mirror of
https://github.com/labring/FastGPT.git
synced 2025-07-28 00:56:26 +00:00
perf: chunk trigger and paragraph split (#4893)
* perf: chunk trigger and paragraph split * update max size computed * perf: i18n * remove table
This commit is contained in:
@@ -1,5 +1,6 @@
|
||||
import { it, expect } from 'vitest'; // 必须显式导入
|
||||
import { splitText2Chunks } from '@fastgpt/global/common/string/textSplitter';
|
||||
import fs from 'fs';
|
||||
|
||||
const simpleChunks = (chunks: string[]) => {
|
||||
return chunks.map((chunk) => chunk.replace(/\s+/g, ''));
|
||||
@@ -634,9 +635,83 @@ it(`Test splitText2Chunks 9`, () => {
|
||||
| 10012 | 杨一 | 34 | 程序员 | 厦门 |
|
||||
`,
|
||||
result: [
|
||||
'测试的呀,第一个表格\n\n| 序号 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 1 | 张三 | 25 | 工程师 | 北京 |\n| 2 | 李四 | 30 | 教师 | 上海 |\n| 3 | 王五 | 28 | 医生 | 广州 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 4 | 赵六 | 35 | 律师 | 深圳 |\n| 5 | 孙七 | 27 | 设计师 | 杭州 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 7 | 吴九 | 29 | 销售 | 武汉 |\n| 8 | 郑十 | 31 | 记者 | 南京 |\n| 9 | 刘一 | 33 | 建筑师 | 天津 |\n| 10 | 陈二 | 26 | 程序员 | 重庆 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1001 | 杨一 | 34 | 程序员 | 厦门 |\n| 1002 | 杨二 | 34 | 程序员 | 厦门 |\n| 1003 | 杨三 | 34 | 程序员 | 厦门 |',
|
||||
'| 序号 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 1004 | 杨四 | 34 | 程序员 | 厦门 |\n| 1005 | 杨五 | 34 | 程序员 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 9 | 刘一 | 33 | 建筑师 | 天津 |\n| 10 | 陈二 | 26 | 程序员 | 重庆 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1001 | 杨一 | 34 | 程序员 | 厦门 |\n| 1002 | 杨二 | 34 | 程序员 | 厦门 |\n| 1003 | 杨三 | 34 | 程序员 | 厦门 |\n| 1004 | 杨四 | 34 | 程序员 | 厦门 |\n| 1005 | 杨五 | 34 | 程序员 | 厦门 |\n\n| 序号 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |',
|
||||
'这是第二段了,第二表格\n\n| 序号 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 1 | 张三 | 25 | 工程师 | 北京 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 2 | 李四 | 30 | 教师 | 上海 |\n| 3 | 王五 | 28 | 医生 | 广州 |\n| 4 | 赵六 | 35 | 律师 | 深圳 |\n| 5 | 孙七 | 27 | 设计师 | 杭州 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 7 | 吴九 | 29 | 销售 | 武汉 |\n| 8 | 郑十 | 31 | 记者 | 南京 |\n| 9 | 刘一 | 33 | 建筑师 | 天津 |\n| 10 | 陈二 | 26 | 程序员 | 重庆 |\n| 10004 | 黄末 | 28 | 作家 | 厦门 |\n| 10013 | 杨一 | 34 | 程序员 | 厦门 |\n\n\n结束了\n\n| 序号22 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 1 | 张三 | 25 | 工程师 | 北京 |\n| 2 | 李四 | 30 | 教师 | 上海 |\n| 3 | 王五 | 28 | 医生 | 广州 |\n| 4 | 赵六 | 35 | 律师 | 深圳 |\n| 5 | 孙七 | 27 | 设计师 | 杭州 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 7 | 吴九 | 29 | 销售 | 武汉 |\n| 8 | 郑十 | 31 | 记者 | 南京 |\n| 9 | 刘一 | 33 | 建筑师 | 天津 |\n| 10 | 陈二 | 26 | 程序员 | 重庆 |\n| 10002 | 黄末 | 28 | 作家 | 厦门 |\n| 10012 | 杨一 | 34 | 程序员 | 厦门 |'
|
||||
`测试的呀,第一个表格
|
||||
|
||||
| 序号 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 1 | 张三 | 25 | 工程师 | 北京 |
|
||||
| 2 | 李四 | 30 | 教师 | 上海 |
|
||||
| 3 | 王五 | 28 | 医生 | 广州 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 4 | 赵六 | 35 | 律师 | 深圳 |
|
||||
| 5 | 孙七 | 27 | 设计师 | 杭州 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 7 | 吴九 | 29 | 销售 | 武汉 |
|
||||
| 8 | 郑十 | 31 | 记者 | 南京 |
|
||||
| 9 | 刘一 | 33 | 建筑师 | 天津 |
|
||||
| 10 | 陈二 | 26 | 程序员 | 重庆 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1001 | 杨一 | 34 | 程序员 | 厦门 |
|
||||
| 1002 | 杨二 | 34 | 程序员 | 厦门 |
|
||||
| 1003 | 杨三 | 34 | 程序员 | 厦门 |`,
|
||||
`| 序号 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 1004 | 杨四 | 34 | 程序员 | 厦门 |
|
||||
| 1005 | 杨五 | 34 | 程序员 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 9 | 刘一 | 33 | 建筑师 | 天津 |
|
||||
| 10 | 陈二 | 26 | 程序员 | 重庆 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1001 | 杨一 | 34 | 程序员 | 厦门 |
|
||||
| 1002 | 杨二 | 34 | 程序员 | 厦门 |
|
||||
| 1003 | 杨三 | 34 | 程序员 | 厦门 |
|
||||
| 1004 | 杨四 | 34 | 程序员 | 厦门 |
|
||||
| 1005 | 杨五 | 34 | 程序员 | 厦门 |`,
|
||||
`| 序号 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
|
||||
这是第二段了,第二表格
|
||||
|
||||
| 序号 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 1 | 张三 | 25 | 工程师 | 北京 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 2 | 李四 | 30 | 教师 | 上海 |
|
||||
| 3 | 王五 | 28 | 医生 | 广州 |
|
||||
| 4 | 赵六 | 35 | 律师 | 深圳 |
|
||||
| 5 | 孙七 | 27 | 设计师 | 杭州 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 7 | 吴九 | 29 | 销售 | 武汉 |
|
||||
| 8 | 郑十 | 31 | 记者 | 南京 |
|
||||
| 9 | 刘一 | 33 | 建筑师 | 天津 |
|
||||
| 10 | 陈二 | 26 | 程序员 | 重庆 |
|
||||
| 10004 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 10013 | 杨一 | 34 | 程序员 | 厦门 |`,
|
||||
`结束了
|
||||
|
||||
| 序号22 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 1 | 张三 | 25 | 工程师 | 北京 |
|
||||
| 2 | 李四 | 30 | 教师 | 上海 |
|
||||
| 3 | 王五 | 28 | 医生 | 广州 |
|
||||
| 4 | 赵六 | 35 | 律师 | 深圳 |
|
||||
| 5 | 孙七 | 27 | 设计师 | 杭州 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 7 | 吴九 | 29 | 销售 | 武汉 |
|
||||
| 8 | 郑十 | 31 | 记者 | 南京 |
|
||||
| 9 | 刘一 | 33 | 建筑师 | 天津 |
|
||||
| 10 | 陈二 | 26 | 程序员 | 重庆 |
|
||||
| 10002 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 10012 | 杨一 | 34 | 程序员 | 厦门 |`
|
||||
]
|
||||
};
|
||||
|
||||
@@ -644,3 +719,91 @@ it(`Test splitText2Chunks 9`, () => {
|
||||
|
||||
expect(chunks).toEqual(mock.result);
|
||||
});
|
||||
|
||||
// 段落优化先测试 - 段落深度 0
|
||||
it(`Test splitText2Chunks 10`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`,
|
||||
result: [
|
||||
`# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`
|
||||
]
|
||||
};
|
||||
|
||||
const { chunks } = splitText2Chunks({ text: mock.text, chunkSize: 2000, paragraphChunkDeep: 0 });
|
||||
expect(chunks).toEqual(mock.result);
|
||||
});
|
||||
|
||||
// 段落优化先测试 - 段落深度 1
|
||||
it(`Test splitText2Chunks 11`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`,
|
||||
result: [
|
||||
`# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`
|
||||
]
|
||||
};
|
||||
|
||||
const { chunks } = splitText2Chunks({ text: mock.text, chunkSize: 2000, paragraphChunkDeep: 1 });
|
||||
expect(chunks).toEqual(mock.result);
|
||||
});
|
||||
|
||||
// 段落优化先测试 - 段落深度 2
|
||||
it(`Test splitText2Chunks 12`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`,
|
||||
result: [
|
||||
`# A
|
||||
af da da fda a a`,
|
||||
`# A
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3`,
|
||||
`# A
|
||||
## E
|
||||
段落 4`
|
||||
]
|
||||
};
|
||||
|
||||
const { chunks } = splitText2Chunks({ text: mock.text, chunkSize: 2000, paragraphChunkDeep: 2 });
|
||||
expect(chunks).toEqual(mock.result);
|
||||
});
|
||||
|
@@ -0,0 +1,380 @@
|
||||
import { it, expect } from 'vitest'; // 必须显式导入
|
||||
import { rawText2Chunks } from '@fastgpt/service/core/dataset/read';
|
||||
import { ChunkTriggerConfigTypeEnum } from '@fastgpt/global/core/dataset/constants';
|
||||
|
||||
const formatChunks = (
|
||||
chunks: {
|
||||
q: string;
|
||||
a: string;
|
||||
indexes?: string[];
|
||||
}[]
|
||||
) => {
|
||||
return chunks.map((chunk) => chunk.q.replace(/\s+/g, ''));
|
||||
};
|
||||
const formatResult = (result: string[]) => {
|
||||
return result.map((item) => item.replace(/\s+/g, ''));
|
||||
};
|
||||
|
||||
// 最大值分块测试-小于最大值,不分块
|
||||
it(`Test splitText2Chunks 1`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水
|
||||
|
||||
### c
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd
|
||||
`,
|
||||
result: [
|
||||
`# A
|
||||
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水
|
||||
|
||||
### c
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`
|
||||
]
|
||||
};
|
||||
|
||||
const data = rawText2Chunks({
|
||||
rawText: mock.text,
|
||||
chunkTriggerType: ChunkTriggerConfigTypeEnum.maxSize,
|
||||
chunkTriggerMinSize: 1000,
|
||||
maxSize: 20000,
|
||||
chunkSize: 512,
|
||||
backupParse: false
|
||||
});
|
||||
expect(formatChunks(data)).toEqual(formatResult(mock.result));
|
||||
});
|
||||
// 最大值分块测试-大于最大值,分块
|
||||
it(`Test splitText2Chunks 2`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水
|
||||
|
||||
### c
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`,
|
||||
result: [
|
||||
`# A
|
||||
|
||||
af da da fda a a`,
|
||||
`# A
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
|
||||
dsgsgfsgs22`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
#### D
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`
|
||||
]
|
||||
};
|
||||
|
||||
const data = rawText2Chunks({
|
||||
rawText: mock.text,
|
||||
chunkTriggerType: ChunkTriggerConfigTypeEnum.maxSize,
|
||||
chunkTriggerMinSize: 10,
|
||||
maxSize: 10,
|
||||
chunkSize: 512,
|
||||
backupParse: false
|
||||
});
|
||||
|
||||
expect(formatChunks(data)).toEqual(formatResult(mock.result));
|
||||
});
|
||||
|
||||
// 最小值分块测试-大于最小值,不分块
|
||||
it(`Test splitText2Chunks 3`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水
|
||||
|
||||
### c
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`,
|
||||
result: [
|
||||
`# A
|
||||
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水
|
||||
|
||||
### c
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`
|
||||
]
|
||||
};
|
||||
|
||||
const data = rawText2Chunks({
|
||||
rawText: mock.text,
|
||||
chunkTriggerType: ChunkTriggerConfigTypeEnum.minSize,
|
||||
chunkTriggerMinSize: 1000,
|
||||
maxSize: 1000,
|
||||
chunkSize: 512,
|
||||
backupParse: false
|
||||
});
|
||||
|
||||
expect(formatChunks(data)).toEqual(formatResult(mock.result));
|
||||
});
|
||||
// 最小值分块测试-小于最小值,分块
|
||||
it(`Test splitText2Chunks 4`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水
|
||||
|
||||
### c
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`,
|
||||
result: [
|
||||
`# A
|
||||
|
||||
af da da fda a a`,
|
||||
`# A
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
|
||||
dsgsgfsgs22`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
#### D
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`
|
||||
]
|
||||
};
|
||||
|
||||
const data = rawText2Chunks({
|
||||
rawText: mock.text,
|
||||
chunkTriggerType: ChunkTriggerConfigTypeEnum.minSize,
|
||||
chunkTriggerMinSize: 10,
|
||||
maxSize: 10,
|
||||
chunkSize: 512,
|
||||
backupParse: false
|
||||
});
|
||||
|
||||
expect(formatChunks(data)).toEqual(formatResult(mock.result));
|
||||
});
|
||||
|
||||
// 强制分块测试-小于最小值和最大值
|
||||
it(`Test splitText2Chunks 5`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水
|
||||
|
||||
### c
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`,
|
||||
result: [
|
||||
`# A
|
||||
|
||||
af da da fda a a`,
|
||||
`# A
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
|
||||
dsgsgfsgs22`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
#### D
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`
|
||||
]
|
||||
};
|
||||
|
||||
const data = rawText2Chunks({
|
||||
rawText: mock.text,
|
||||
chunkTriggerType: ChunkTriggerConfigTypeEnum.forceChunk,
|
||||
chunkTriggerMinSize: 1000,
|
||||
maxSize: 10000,
|
||||
chunkSize: 512,
|
||||
backupParse: false
|
||||
});
|
||||
|
||||
expect(formatChunks(data)).toEqual(formatResult(mock.result));
|
||||
});
|
||||
|
||||
// 强制分块测试-大于最小值
|
||||
it(`Test splitText2Chunks 6`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水
|
||||
|
||||
### c
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22
|
||||
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`,
|
||||
result: [
|
||||
`# A
|
||||
|
||||
af da da fda a a`,
|
||||
`# A
|
||||
## B
|
||||
|
||||
阿凡撒发生的都是发大水`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
|
||||
dsgsgfsgs22`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
#### D
|
||||
|
||||
dsgsgfsgs22`,
|
||||
`# A
|
||||
## B
|
||||
### c
|
||||
#### D
|
||||
##### E
|
||||
|
||||
dsgsgfsgs22sddddddd`
|
||||
]
|
||||
};
|
||||
|
||||
const data = rawText2Chunks({
|
||||
rawText: mock.text,
|
||||
chunkTriggerType: ChunkTriggerConfigTypeEnum.forceChunk,
|
||||
chunkTriggerMinSize: 10,
|
||||
maxSize: 10000,
|
||||
chunkSize: 512,
|
||||
backupParse: false
|
||||
});
|
||||
|
||||
expect(formatChunks(data)).toEqual(formatResult(mock.result));
|
||||
});
|
Reference in New Issue
Block a user