feat: file input doc (#2359)

2025-07-24 22:03:54 +00:00 · 2024-08-13 14:25:49 +08:00
parent 2827c633cd
commit fe9cb437e5
10 changed files with 133 additions and 134 deletions
--- a/docSite/content/zh-cn/docs/course/fileInput.md
+++ b/docSite/content/zh-cn/docs/course/fileInput.md
@@ -0,0 +1,132 @@
+---
+title: '文件输入功能介绍'
+description: 'FastGPT 文件输入功能介绍'
+icon: 'description'
+draft: false
+toc: true
+weight: 110
+---
+
+从 4.8.9 版本起，FastGPT 支持在`简易模式`和`工作流`中，配置用户上传文件、图片功能。下面先简单介绍下如何使用文件输入功能，最后是介绍下文件解析的工作原理。
+
+
+## 简易模式中使用
+
+简易模式打开文件上传后，会使用工具调用模式，也就是由模型自行决策，是否需要读取文件内容。
+
+可以找到左侧文件上传的配置项，点击其右侧的`开启`/`关闭`按键，即可打开配置弹窗。
+
+![打开文件上传](/imgs/fileinpu-1.png)
+
+随后，你的调试对话框中，就会出现一个文件选择的 icon，可以点击文件选择 icon，选择你需要上传的文件。
+
+由于采用的是工具调用模式，所以在提问时候，可能需要加上适当的引导，让模型知道，你需要读取`文档`。
+
+![打开文件上传](/imgs/fileinpu-2.png)
+
+## 工作流中使用
+
+工作流中，可以在系统配置中，找到`文件输入`配置项，点击其右侧的`开启`/`关闭`按键，即可打开配置弹窗。
+
+![打开文件上传](/imgs/fileinpu-4.jpg)
+
+在工作流中，使用文件的方式很多，最简单的就是类似下图中，直接通过工具调用接入文档解析，实现和简易模式一样的效果。
+
+![打开文件上传](/imgs/fileinpu-3.jpg)
+
+也可以更简单点，强制每轮对话都携带上文档内容进行回答，这样就不需要调用两次 AI 才能读取文档内容了。
+
+![打开文件上传](/imgs/fileinpu-5.jpg)
+
+当然，你也可以在工作流中，对文档进行内容提取、内容分析等，然后将分析的结果传递给 HTTP 或者其他模块，从而实现文件处理的 SOP。不过目前版本，`插件`中并未支持文件处理，所以在构建 SOP 的话可能还是有一些麻烦。
+
+
+## 文档解析工作原理
+
+不同于图片识别，LLM 模型目前没有支持直接解析文档的能力，所有的文档“理解”都是通过文档转文字后拼接 prompt 实现。这里通过几个 FAQ 来解释文档解析的工作原理，理解文档解析的原理，可以更好的在工作流中使用文档解析功能。
+
+### 上传的文件如何存储在数据库中
+
+FastGPT 的对话记录存储结构中，role=user 的消息，value 值会按以下结构存储：
+
+```ts
+type UserChatItemValueItemType = {
+  type: 'text' | 'file'
+  text?: {
+    content: string;
+  };
+  file?: {
+    type: 'img' | 'doc'
+    name?: string;
+    url: string;
+  };
+};
+```
+
+也就是说，上传的图片和文档，都会以 URL 的形式存储在库中，并不会存储`解析后的文档内容`。
+
+### 图片如何处理
+
+文档解析节点不会处理图片，图片链接会被过滤，图片识别请直接使用支持图片识别的 LLM 模型。
+
+### 文档解析节点如何工作
+
+文档解析依赖文档解析节点，这个节点会接收一个`array<string>`类型的输入，对应的是文件输入的 URL；输出的是一个`string`，对应的是文档解析后的内容。
+
+![打开文件上传](/imgs/fileinpu-6.jpg)
+
+* 在文档解析节点中，只会解析`文档`类型的 URL，它是通过文件 URL 解析出来的`文名件后缀`去判断的。如果你同时选择了文档和图片，图片会被忽略。
+* 文档解析节点，除了解析本轮工作流接收的文件外，还会把历史记录中的文档 URL 进行解析。最终会解析至多 n 个文档，n 取决于你配置文件上传时，允许的最大文件数量。
+
+{{% alert icon="🤖" context="success" %}}
+举例：
+
+配置了最多允许 5 个文件上传
+
+1. 第一轮对话，上传 3 个文档和 1 个图片：文档解析节点，返回 3 个文档内容。
+2. 第二轮对话，不上传任何文件：文档解析节点，返回 3 个文档内容。
+3. 第三轮对话，上传 2 个文档：文档解析节点，返回 5 个文档内容。
+4. 第四轮对话，上传 1 个文档：文档解析节点，返回 5 个文档内容，第一轮对话中的第三个文档会被过滤掉。
+
+{{% /alert %}}
+
+* 多个文档内容如何拼接的
+
+按下列的模板，对多个文件进行拼接，即文件名+文件内容的形式组成一个字符串，不同文档之间通过分隔符：`\n******\n` 进行分割。
+
+```
+File: ${filename}
+<Content>
+${content}
+</Content>
+```
+
+### 工具调用如何使用文档解析
+
+在工具调用中，文档解析节点的调用提示词为：`解析对话中所有上传的文档，并返回对应文档内容`。
+
+作为工具被执行后，文档解析节点会返回解析后的文档内容作为工具响应。
+
+### AI对话中如何使用文档解析
+
+在 AI 对话节点中，新增了一个文档引用的输入，可以直接引用文档解析节点的输出，从而实现文档内容的引用。
+
+它接收一个`string`类型的输入，除了可以引用文档解析结果外，还可以实现自定义内容引用，最终会进行提示词拼接，放置在 role=system 的消息中。提示词模板如下：
+
+```
+将 <Quote></Quote> 中的内容作为你的知识:
+<Quote>
+{{quote}}
+</Quote>
+```
+
+quote 为引用的内容。
+
+![打开文件上传](/imgs/fileinpu-7.jpg)
+
+## 文件输入后续更新
+
+* 插件支持配置文件输入。
+* 子应用和插件调用，支持传递文件输入。
+* 文档解析，结构化解析结果。
+* 更多的文件类型输入以及解析器。