Files
FastGPT/document/content/docs/introduction/guide/dashboard/evaluation.mdx
heheer 68136febec doc: evaluation (#5276)
* doc: evaluation

* new doc
2025-07-24 13:10:25 +08:00

75 lines
2.2 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: '应用评测(Beta)'
description: '快速了解 FastGPT 应用评测功能'
---
FastGPT v4.11.0 版本开始支持应用批量评测功能。通过传入多组问答对,系统会对应用执行结果进行自动打分,实现应用运行效果的定量评估。
系统支持三种评估指标:回答准确性、问题相关性和语义准确性。当前测试版仅包含回答准确性这一个指标,其余指标将在后续版本中补充完善。
## 创建应用评测
### 进入评测页面
![创建应用评测](/imgs/evaluation1.png)
进入工作台下的应用评测目录,点击右上角的"创建任务"按钮。
### 填写评测信息
![创建应用评测](/imgs/evaluation2.png)
在创建任务页面中,需要填写以下信息:
- **评测任务名**:任务的标识名称
- **评测模型**:用于本次任务打分的模型
- **评测应用**:需要被打分的应用
### 准备评测数据
![创建应用评测](/imgs/evaluation2.png)
选择评测应用后系统会弹出下载CSV模板的按钮。模板包含以下字段
- 全局变量
- q问题
- a标准答案
- 历史记录
**注意事项:**
- 最多支持1000组问答对
- 请按照模板格式填写数据
填写完成后上传文件并点击"开始评测",即可创建一个应用评测任务
## 查看应用评测
### 评测列表
![查看应用评测](/imgs/evaluation4.png)
评测列表页面显示所有评测任务,包含以下关键信息:
- **进度**:当前评测任务的执行状态
- **执行人**:创建评测任务的用户
- **评测应用**:被评测的应用名称
- **开始时间/结束时间**:评测任务的执行时间范围
- **综合评分**:评测任务的整体得分
通过这些信息,可以清晰地比较每次应用改进后的效果。
### 评测详情
![查看应用评测](/imgs/evaluation5.png)
点击"查看详情"可进入评测任务的详情页面:
**任务概览**:页面顶部显示任务的整体信息,包括评测配置和统计结果。
**详细结果**:页面下方展示评测任务中的每一条问答对及其评分,可以查看:
- 用户问题
- 标准输出
- 应用输出