mirror of
https://github.com/labring/FastGPT.git
synced 2025-07-27 16:33:49 +00:00
perf: chunk trigger and paragraph split (#4893)
* perf: chunk trigger and paragraph split * update max size computed * perf: i18n * remove table
This commit is contained in:
@@ -1,5 +1,6 @@
|
||||
import { it, expect } from 'vitest'; // 必须显式导入
|
||||
import { splitText2Chunks } from '@fastgpt/global/common/string/textSplitter';
|
||||
import fs from 'fs';
|
||||
|
||||
const simpleChunks = (chunks: string[]) => {
|
||||
return chunks.map((chunk) => chunk.replace(/\s+/g, ''));
|
||||
@@ -634,9 +635,83 @@ it(`Test splitText2Chunks 9`, () => {
|
||||
| 10012 | 杨一 | 34 | 程序员 | 厦门 |
|
||||
`,
|
||||
result: [
|
||||
'测试的呀,第一个表格\n\n| 序号 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 1 | 张三 | 25 | 工程师 | 北京 |\n| 2 | 李四 | 30 | 教师 | 上海 |\n| 3 | 王五 | 28 | 医生 | 广州 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 4 | 赵六 | 35 | 律师 | 深圳 |\n| 5 | 孙七 | 27 | 设计师 | 杭州 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 7 | 吴九 | 29 | 销售 | 武汉 |\n| 8 | 郑十 | 31 | 记者 | 南京 |\n| 9 | 刘一 | 33 | 建筑师 | 天津 |\n| 10 | 陈二 | 26 | 程序员 | 重庆 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1001 | 杨一 | 34 | 程序员 | 厦门 |\n| 1002 | 杨二 | 34 | 程序员 | 厦门 |\n| 1003 | 杨三 | 34 | 程序员 | 厦门 |',
|
||||
'| 序号 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 1004 | 杨四 | 34 | 程序员 | 厦门 |\n| 1005 | 杨五 | 34 | 程序员 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 9 | 刘一 | 33 | 建筑师 | 天津 |\n| 10 | 陈二 | 26 | 程序员 | 重庆 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1001 | 杨一 | 34 | 程序员 | 厦门 |\n| 1002 | 杨二 | 34 | 程序员 | 厦门 |\n| 1003 | 杨三 | 34 | 程序员 | 厦门 |\n| 1004 | 杨四 | 34 | 程序员 | 厦门 |\n| 1005 | 杨五 | 34 | 程序员 | 厦门 |\n\n| 序号 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |\n| 1000 | 黄末 | 28 | 作家 | 厦门 |',
|
||||
'这是第二段了,第二表格\n\n| 序号 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 1 | 张三 | 25 | 工程师 | 北京 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 2 | 李四 | 30 | 教师 | 上海 |\n| 3 | 王五 | 28 | 医生 | 广州 |\n| 4 | 赵六 | 35 | 律师 | 深圳 |\n| 5 | 孙七 | 27 | 设计师 | 杭州 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 7 | 吴九 | 29 | 销售 | 武汉 |\n| 8 | 郑十 | 31 | 记者 | 南京 |\n| 9 | 刘一 | 33 | 建筑师 | 天津 |\n| 10 | 陈二 | 26 | 程序员 | 重庆 |\n| 10004 | 黄末 | 28 | 作家 | 厦门 |\n| 10013 | 杨一 | 34 | 程序员 | 厦门 |\n\n\n结束了\n\n| 序号22 | 姓名 | 年龄 | 职业 | 城市 |\n| --- | --- | --- | --- | --- |\n| 1 | 张三 | 25 | 工程师 | 北京 |\n| 2 | 李四 | 30 | 教师 | 上海 |\n| 3 | 王五 | 28 | 医生 | 广州 |\n| 4 | 赵六 | 35 | 律师 | 深圳 |\n| 5 | 孙七 | 27 | 设计师 | 杭州 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 6 | 周八 | 32 | 会计 | 成都 |\n| 7 | 吴九 | 29 | 销售 | 武汉 |\n| 8 | 郑十 | 31 | 记者 | 南京 |\n| 9 | 刘一 | 33 | 建筑师 | 天津 |\n| 10 | 陈二 | 26 | 程序员 | 重庆 |\n| 10002 | 黄末 | 28 | 作家 | 厦门 |\n| 10012 | 杨一 | 34 | 程序员 | 厦门 |'
|
||||
`测试的呀,第一个表格
|
||||
|
||||
| 序号 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 1 | 张三 | 25 | 工程师 | 北京 |
|
||||
| 2 | 李四 | 30 | 教师 | 上海 |
|
||||
| 3 | 王五 | 28 | 医生 | 广州 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 4 | 赵六 | 35 | 律师 | 深圳 |
|
||||
| 5 | 孙七 | 27 | 设计师 | 杭州 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 7 | 吴九 | 29 | 销售 | 武汉 |
|
||||
| 8 | 郑十 | 31 | 记者 | 南京 |
|
||||
| 9 | 刘一 | 33 | 建筑师 | 天津 |
|
||||
| 10 | 陈二 | 26 | 程序员 | 重庆 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1001 | 杨一 | 34 | 程序员 | 厦门 |
|
||||
| 1002 | 杨二 | 34 | 程序员 | 厦门 |
|
||||
| 1003 | 杨三 | 34 | 程序员 | 厦门 |`,
|
||||
`| 序号 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 1004 | 杨四 | 34 | 程序员 | 厦门 |
|
||||
| 1005 | 杨五 | 34 | 程序员 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 9 | 刘一 | 33 | 建筑师 | 天津 |
|
||||
| 10 | 陈二 | 26 | 程序员 | 重庆 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1001 | 杨一 | 34 | 程序员 | 厦门 |
|
||||
| 1002 | 杨二 | 34 | 程序员 | 厦门 |
|
||||
| 1003 | 杨三 | 34 | 程序员 | 厦门 |
|
||||
| 1004 | 杨四 | 34 | 程序员 | 厦门 |
|
||||
| 1005 | 杨五 | 34 | 程序员 | 厦门 |`,
|
||||
`| 序号 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 1000 | 黄末 | 28 | 作家 | 厦门 |
|
||||
|
||||
这是第二段了,第二表格
|
||||
|
||||
| 序号 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 1 | 张三 | 25 | 工程师 | 北京 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 2 | 李四 | 30 | 教师 | 上海 |
|
||||
| 3 | 王五 | 28 | 医生 | 广州 |
|
||||
| 4 | 赵六 | 35 | 律师 | 深圳 |
|
||||
| 5 | 孙七 | 27 | 设计师 | 杭州 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 7 | 吴九 | 29 | 销售 | 武汉 |
|
||||
| 8 | 郑十 | 31 | 记者 | 南京 |
|
||||
| 9 | 刘一 | 33 | 建筑师 | 天津 |
|
||||
| 10 | 陈二 | 26 | 程序员 | 重庆 |
|
||||
| 10004 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 10013 | 杨一 | 34 | 程序员 | 厦门 |`,
|
||||
`结束了
|
||||
|
||||
| 序号22 | 姓名 | 年龄 | 职业 | 城市 |
|
||||
| --- | --- | --- | --- | --- |
|
||||
| 1 | 张三 | 25 | 工程师 | 北京 |
|
||||
| 2 | 李四 | 30 | 教师 | 上海 |
|
||||
| 3 | 王五 | 28 | 医生 | 广州 |
|
||||
| 4 | 赵六 | 35 | 律师 | 深圳 |
|
||||
| 5 | 孙七 | 27 | 设计师 | 杭州 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 6 | 周八 | 32 | 会计 | 成都 |
|
||||
| 7 | 吴九 | 29 | 销售 | 武汉 |
|
||||
| 8 | 郑十 | 31 | 记者 | 南京 |
|
||||
| 9 | 刘一 | 33 | 建筑师 | 天津 |
|
||||
| 10 | 陈二 | 26 | 程序员 | 重庆 |
|
||||
| 10002 | 黄末 | 28 | 作家 | 厦门 |
|
||||
| 10012 | 杨一 | 34 | 程序员 | 厦门 |`
|
||||
]
|
||||
};
|
||||
|
||||
@@ -644,3 +719,91 @@ it(`Test splitText2Chunks 9`, () => {
|
||||
|
||||
expect(chunks).toEqual(mock.result);
|
||||
});
|
||||
|
||||
// 段落优化先测试 - 段落深度 0
|
||||
it(`Test splitText2Chunks 10`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`,
|
||||
result: [
|
||||
`# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`
|
||||
]
|
||||
};
|
||||
|
||||
const { chunks } = splitText2Chunks({ text: mock.text, chunkSize: 2000, paragraphChunkDeep: 0 });
|
||||
expect(chunks).toEqual(mock.result);
|
||||
});
|
||||
|
||||
// 段落优化先测试 - 段落深度 1
|
||||
it(`Test splitText2Chunks 11`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`,
|
||||
result: [
|
||||
`# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`
|
||||
]
|
||||
};
|
||||
|
||||
const { chunks } = splitText2Chunks({ text: mock.text, chunkSize: 2000, paragraphChunkDeep: 1 });
|
||||
expect(chunks).toEqual(mock.result);
|
||||
});
|
||||
|
||||
// 段落优化先测试 - 段落深度 2
|
||||
it(`Test splitText2Chunks 12`, () => {
|
||||
const mock = {
|
||||
text: `# A
|
||||
af da da fda a a
|
||||
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3
|
||||
## E
|
||||
段落 4`,
|
||||
result: [
|
||||
`# A
|
||||
af da da fda a a`,
|
||||
`# A
|
||||
## B
|
||||
段落 2
|
||||
### D
|
||||
段落 3`,
|
||||
`# A
|
||||
## E
|
||||
段落 4`
|
||||
]
|
||||
};
|
||||
|
||||
const { chunks } = splitText2Chunks({ text: mock.text, chunkSize: 2000, paragraphChunkDeep: 2 });
|
||||
expect(chunks).toEqual(mock.result);
|
||||
});
|
||||
|
Reference in New Issue
Block a user