mirror of
https://github.com/labring/FastGPT.git
synced 2025-10-14 15:11:13 +00:00
@@ -0,0 +1,74 @@
|
||||
---
|
||||
title: '应用评测(Beta)'
|
||||
description: '快速了解 FastGPT 应用评测功能'
|
||||
---
|
||||
|
||||
FastGPT v4.11.0 版本开始支持应用批量评测功能。通过传入多组问答对,系统会对应用执行结果进行自动打分,实现应用运行效果的定量评估。
|
||||
|
||||
系统支持三种评估指标:回答准确性、问题相关性和语义准确性。当前测试版仅包含回答准确性这一个指标,其余指标将在后续版本中补充完善。
|
||||
|
||||
## 创建应用评测
|
||||
|
||||
### 进入评测页面
|
||||
|
||||

|
||||
|
||||
进入工作台下的应用评测目录,点击右上角的"创建任务"按钮。
|
||||
|
||||
### 填写评测信息
|
||||
|
||||

|
||||
|
||||
在创建任务页面中,需要填写以下信息:
|
||||
|
||||
- **评测任务名**:任务的标识名称
|
||||
- **评测模型**:用于本次任务打分的模型
|
||||
- **评测应用**:需要被打分的应用
|
||||
|
||||
### 准备评测数据
|
||||
|
||||

|
||||
|
||||
选择评测应用后,系统会弹出下载CSV模板的按钮。模板包含以下字段:
|
||||
|
||||
- 全局变量
|
||||
- q(问题)
|
||||
- a(标准答案)
|
||||
- 历史记录
|
||||
|
||||
**注意事项:**
|
||||
|
||||
- 最多支持1000组问答对
|
||||
- 请按照模板格式填写数据
|
||||
|
||||
填写完成后上传文件并点击"开始评测",即可创建一个应用评测任务
|
||||
|
||||
## 查看应用评测
|
||||
|
||||
### 评测列表
|
||||
|
||||

|
||||
|
||||
评测列表页面显示所有评测任务,包含以下关键信息:
|
||||
|
||||
- **进度**:当前评测任务的执行状态
|
||||
- **执行人**:创建评测任务的用户
|
||||
- **评测应用**:被评测的应用名称
|
||||
- **开始时间/结束时间**:评测任务的执行时间范围
|
||||
- **综合评分**:评测任务的整体得分
|
||||
|
||||
通过这些信息,可以清晰地比较每次应用改进后的效果。
|
||||
|
||||
### 评测详情
|
||||
|
||||

|
||||
|
||||
点击"查看详情"可进入评测任务的详情页面:
|
||||
|
||||
**任务概览**:页面顶部显示任务的整体信息,包括评测配置和统计结果。
|
||||
|
||||
**详细结果**:页面下方展示评测任务中的每一条问答对及其评分,可以查看:
|
||||
|
||||
- 用户问题
|
||||
- 标准输出
|
||||
- 应用输出
|
@@ -1,5 +1,5 @@
|
||||
{
|
||||
"title": "工作台",
|
||||
"description": "FastGPT 工作台及工作流节点的使用说明",
|
||||
"pages": ["basic-mode","intro","workflow","mcp_server","mcp_tools","gapier"]
|
||||
}
|
||||
"pages": ["basic-mode", "intro", "workflow", "mcp_server", "mcp_tools", "gapier", "evaluation"]
|
||||
}
|
||||
|
@@ -7,7 +7,7 @@ import { globby } from 'globby';
|
||||
import pLimit from 'p-limit';
|
||||
|
||||
const API_URL = 'https://api.siliconflow.cn/v1/chat/completions';
|
||||
const API_KEY = 'sk-vuhtbufojlsnrqnivoscchhtjskhwwkybeemcdqqxebqhirg'; // 替换为你的密钥
|
||||
const API_KEY = ''; // 替换为你的密钥
|
||||
const MODEL_NAME = 'Qwen/QwQ-32B';
|
||||
|
||||
const limit = pLimit(2); // 限制并发翻译数量
|
||||
|
BIN
document/public/imgs/evaluation1.png
Normal file
BIN
document/public/imgs/evaluation1.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 469 KiB |
BIN
document/public/imgs/evaluation2.png
Normal file
BIN
document/public/imgs/evaluation2.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 194 KiB |
BIN
document/public/imgs/evaluation3.png
Normal file
BIN
document/public/imgs/evaluation3.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 218 KiB |
BIN
document/public/imgs/evaluation4.png
Normal file
BIN
document/public/imgs/evaluation4.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 38 KiB |
BIN
document/public/imgs/evaluation5.png
Normal file
BIN
document/public/imgs/evaluation5.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 384 KiB |
Reference in New Issue
Block a user