FastGPT/document/content/docs/introduction/guide/dashboard/evaluation.mdx

---
title: '应用评测(Beta)'
description: '快速了解 FastGPT 应用评测功能'
---

FastGPT v4.11.0 版本开始支持应用批量评测功能。通过传入多组问答对，系统会对应用执行结果进行自动打分，实现应用运行效果的定量评估。

系统支持三种评估指标：回答准确性、问题相关性和语义准确性。当前测试版仅包含回答准确性这一个指标，其余指标将在后续版本中补充完善。

## 创建应用评测

### 进入评测页面

![创建应用评测](/imgs/evaluation1.png)

进入工作台下的应用评测目录，点击右上角的"创建任务"按钮。

### 填写评测信息

![创建应用评测](/imgs/evaluation2.png)

在创建任务页面中，需要填写以下信息：

- **评测任务名**：任务的标识名称
- **评测模型**：用于本次任务打分的模型
- **评测应用**：需要被打分的应用

### 准备评测数据

![创建应用评测](/imgs/evaluation2.png)

选择评测应用后，系统会弹出下载CSV模板的按钮。模板包含以下字段：

- 全局变量
- q（问题）
- a（标准答案）
- 历史记录

**注意事项：**

- 最多支持1000组问答对
- 请按照模板格式填写数据

填写完成后上传文件并点击"开始评测"，即可创建一个应用评测任务

## 查看应用评测

### 评测列表

![查看应用评测](/imgs/evaluation4.png)

评测列表页面显示所有评测任务，包含以下关键信息：

- **进度**：当前评测任务的执行状态
- **执行人**：创建评测任务的用户
- **评测应用**：被评测的应用名称
- **开始时间/结束时间**：评测任务的执行时间范围
- **综合评分**：评测任务的整体得分

通过这些信息，可以清晰地比较每次应用改进后的效果。

### 评测详情

![查看应用评测](/imgs/evaluation5.png)

点击"查看详情"可进入评测任务的详情页面：

**任务概览**：页面顶部显示任务的整体信息，包括评测配置和统计结果。

**详细结果**：页面下方展示评测任务中的每一条问答对及其评分，可以查看：

- 用户问题
- 标准输出
- 应用输出