perf: buffer;fix: back up split (#4913)

* perf: buffer * fix: back up split * fix: app limit * doc
2025-10-15 07:31:19 +00:00 · 2025-05-28 18:18:25 +08:00
parent 802de11363
commit a171c7b11c
11 changed files with 208 additions and 93 deletions
--- a/packages/service/core/dataset/collection/controller.ts
+++ b/packages/service/core/dataset/collection/controller.ts
@@ -77,7 +77,10 @@ export const createCollectionAndInsertData = async ({
  const chunkSplitter = computeChunkSplitter(createCollectionParams);
  const paragraphChunkDeep = computeParagraphChunkDeep(createCollectionParams);

-  if (trainingType === DatasetCollectionDataProcessModeEnum.qa) {
+  if (
+    trainingType === DatasetCollectionDataProcessModeEnum.qa ||
+    trainingType === DatasetCollectionDataProcessModeEnum.backup
+  ) {
    delete createCollectionParams.chunkTriggerType;
    delete createCollectionParams.chunkTriggerMinSize;
    delete createCollectionParams.dataEnhanceCollectionName;
--- a/packages/service/core/dataset/read.ts
+++ b/packages/service/core/dataset/read.ts
@@ -218,6 +218,10 @@ export const rawText2Chunks = ({
    };
  };

+  if (backupParse) {
+    return parseDatasetBackup2Chunks(rawText).chunks;
+  }
+
  // Chunk condition
  // 1. 选择最大值条件，只有超过了最大值(默认为模型的最大值*0.7），才会触发分块
  if (chunkTriggerType === ChunkTriggerConfigTypeEnum.maxSize) {
@@ -240,10 +244,6 @@ export const rawText2Chunks = ({
    }
  }

-  if (backupParse) {
-    return parseDatasetBackup2Chunks(rawText).chunks;
-  }
-
  const { chunks } = splitText2Chunks({
    text: rawText,
    chunkSize,