doc: evaluation (#5276)

* doc: evaluation

* new doc
This commit is contained in:
heheer
2025-07-24 13:10:25 +08:00
committed by GitHub
parent fa60f546d4
commit 68136febec
8 changed files with 77 additions and 3 deletions

View File

@@ -0,0 +1,74 @@
---
title: '应用评测(Beta)'
description: '快速了解 FastGPT 应用评测功能'
---
FastGPT v4.11.0 版本开始支持应用批量评测功能。通过传入多组问答对,系统会对应用执行结果进行自动打分,实现应用运行效果的定量评估。
系统支持三种评估指标:回答准确性、问题相关性和语义准确性。当前测试版仅包含回答准确性这一个指标,其余指标将在后续版本中补充完善。
## 创建应用评测
### 进入评测页面
![创建应用评测](/imgs/evaluation1.png)
进入工作台下的应用评测目录,点击右上角的"创建任务"按钮。
### 填写评测信息
![创建应用评测](/imgs/evaluation2.png)
在创建任务页面中,需要填写以下信息:
- **评测任务名**:任务的标识名称
- **评测模型**:用于本次任务打分的模型
- **评测应用**:需要被打分的应用
### 准备评测数据
![创建应用评测](/imgs/evaluation2.png)
选择评测应用后系统会弹出下载CSV模板的按钮。模板包含以下字段
- 全局变量
- q问题
- a标准答案
- 历史记录
**注意事项:**
- 最多支持1000组问答对
- 请按照模板格式填写数据
填写完成后上传文件并点击"开始评测",即可创建一个应用评测任务
## 查看应用评测
### 评测列表
![查看应用评测](/imgs/evaluation4.png)
评测列表页面显示所有评测任务,包含以下关键信息:
- **进度**:当前评测任务的执行状态
- **执行人**:创建评测任务的用户
- **评测应用**:被评测的应用名称
- **开始时间/结束时间**:评测任务的执行时间范围
- **综合评分**:评测任务的整体得分
通过这些信息,可以清晰地比较每次应用改进后的效果。
### 评测详情
![查看应用评测](/imgs/evaluation5.png)
点击"查看详情"可进入评测任务的详情页面:
**任务概览**:页面顶部显示任务的整体信息,包括评测配置和统计结果。
**详细结果**:页面下方展示评测任务中的每一条问答对及其评分,可以查看:
- 用户问题
- 标准输出
- 应用输出

View File

@@ -1,5 +1,5 @@
{
"title": "工作台",
"description": "FastGPT 工作台及工作流节点的使用说明",
"pages": ["basic-mode","intro","workflow","mcp_server","mcp_tools","gapier"]
}
"pages": ["basic-mode", "intro", "workflow", "mcp_server", "mcp_tools", "gapier", "evaluation"]
}

View File

@@ -7,7 +7,7 @@ import { globby } from 'globby';
import pLimit from 'p-limit';
const API_URL = 'https://api.siliconflow.cn/v1/chat/completions';
const API_KEY = 'sk-vuhtbufojlsnrqnivoscchhtjskhwwkybeemcdqqxebqhirg'; // 替换为你的密钥
const API_KEY = ''; // 替换为你的密钥
const MODEL_NAME = 'Qwen/QwQ-32B';
const limit = pLimit(2); // 限制并发翻译数量

Binary file not shown.

After

Width:  |  Height:  |  Size: 469 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 194 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 218 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 38 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 384 KiB