大模型评测 7 条原则

白居易在《钱塘湖春行》中写道:

孤山寺北贾亭西,水面初平云脚低。几处早莺争暖树,谁家新燕啄春泥。乱花渐欲迷人眼,浅草才能没马蹄。

2025 年 的春天,大模型的发展也正如诗句中所描述的意境那般:百花齐放,百家争鸣。在这个时候,大模型的评测也变得越来越重要。但是,如何才能确保在评测大模型时,能够得到正确、客观的结论呢?通过大量的实践、我们整理出了以下 7 条原则,希望能够帮助大家在评测大模型时,得到更加置信的结论。

1. 评测样本必须无歧义

评测数据集中的样本描述必须是准确的、无歧义的,存在歧义的样本无办保证最终的评估结论的准确性。

最典型的就是 OpenAI 在 24 年 8 月 发布的 SWE-bench Verified 数据集,OpenAI 认为 原始 SWE-bench 低估了大模型在代码方面的能力,于是对该数据进行了重新标注并构建了 SWE-bench Verified 数据集。在整个标注的过程中,OpenAI 发现:原始 SWE-bench 中的样本有很大一部分是不合格的。

38.3% 的样本问题陈述不够明确 61.1% 的样本因为单元测试问题将有效解决方案错误地标记为不正确
歧义评测样本举例
原始图片 含有歧义的样本 Query 修改后无歧义的样本 Query
为什么 A 是对的?
* A 是对的
* A 是错误的,因为题目问的是错误的选项是哪个?
为什么这道题的答案是 A?
这是什么小说?
* 蒲松龄的《狼三则·其一》
* 东田集中的《东郭先生和狼》,虽然可能性非常小
这是蒲松龄的哪篇小说?

2. 必须覆盖模型的新增能力

模型在不断优化的过程中,会针对特定场景进行优化,评测的样本必须能够覆盖这些特定场景,否则就无法对模型性能进行正确的评估。

2025 年 2月,万相2.1 宣布开源,其优势在于:长提示词遵循,人物复杂运动,多主体互动等。我们在不同的数据集上同时对万相 2.1 和可灵 1.6 进行了评估,却得出了相反的结论。

参考图片 创意描述 万相 2.1 可灵 1.6
数据集 A 马车沿着小路前行。假山逐渐浮现,周围的云层一点点散开
数据集 B 生成视频,视频中广袤无垠的翠绿草原,微风拂动草浪,远处山峦连绵起伏与蓝天相接,阳光洒下。一位身着绚丽民族服饰的漂亮女性骑手双腿轻夹马腹,缰绳一甩,骏马前蹄扬起,嘶鸣一声。骑手骑着骏马在草原上纵情奔跑,马蹄溅起草屑,马鬃飞扬,身姿矫健,与草原融为一体。

3. 评测样本必须分场景组织

在评测大模型的视觉理解理解能力的时候,我们发现,不同的场景下,大模型的表现差异很大。如果单独看某个场景的效果,可能 A 模型效果好,B 模型效果差。但如果在另外的场景,却发现 B 模型效果好,A 模型效果差。

模型 整体平均值 图像内容提取 图像问答推理 图像异常识别 文创
A 1.57 1.75 1.67 0.57 1.52
B 1.56 1.79 1.65 0.57 1.48
C 1.54 1.64 1.8 0.29 1.48
D 1.52 1.39 1.83 0.43 1.6
E 1.36 1.46 1.47 0.57 1.32
F 1.28 1.43 1.33 0.29 1.32

4. 大模型的参数必须明确

虽然是相同的模型,但是我们在评测中发现对于同样的 Query,不同的渠道获得的结果并不相同,因此在评测时,必须明确产生当前结果的个模型的参数。

参考图片 创意描述 官网效果 自部署效果
爱因斯坦正在认真的上课,突然,他停下手中的粉笔,转身面向学生,调皮地伸出舌头,眼睛眯成一条缝,脸上露出一个可爱的笑容,仿佛在和学生们开一个小玩笑。

再比如,对于推理模型而言,如果是 API 访问模型,则会缺少联网搜索的能力,但是如果是 WEB 访问模型,则可以增加联网搜索能力。

5. 评估样本必须细化打分准则

只进行整体评估容易忽略模型的在特殊场景下的优势,也容易忽略模型在特殊场景下的缺点。

参考图片 创意描述 模型 A 效果 模型 B 效果
图中有两位年轻漂亮的女生在酒吧喝酒,请根据图片生成他们一边喝酒,一边尽情舞动,活力四射的视频。视频中酒吧的彩色霓虹灯缓慢的闪烁,投射出迷幻的光影,并营造出节日般的氛围。两位主角随着节奏摆动身体,脸上洋溢着灿烂笑容,彼此眼神交流,流露出亲密与喜悦。
男人看向左侧,说着话
整体打分 运动复杂度 细节效果
模型 A 1.5 2 1
模型 B 1.5 1 2

对于 VBench 榜单,对于不同的视频生成模型,从单维度打分来看,不同模型之间有很大的区别。但是从总分来,模型之间的差距反而变的不明显了(80%~86%之间的模型有30+个)。

VBench 打分维度 VBench 榜单

从数学的角度看待分维度打分的必要性。假设模型具备 3 个指标,考虑到模型的随机性,所以这 3 个指标是一个随机变量,并假定其均符合标准正态分布——X1,X2,X3N(0,1)X_1, X_2,X_3 \sim \mathcal{N}(0,1)
因为三个指标是相互独立的,因此,模型的整体指标 X4=X1+X2+X3N(0,3)X_4 = X_1 + X_2 + X_3 \sim \mathcal{N}(0,3)
由于整体的方差 σ2\sigma^2 变大,因此在进行推断统计时,统计量 Z=nxˉμ0σZ=\sqrt{n}\frac{\bar{x}-\mu_0}{\sigma} 会变小,进而导致双边检验的 pvalue=2×(1Φ(Z))p-\text{value} = 2 \times (1 - \Phi(|Z|)) 会变大,从而导致无法对不同模型的能力进行区分。

6. 凡主观,必双盲

对于主观评估,当连续评估时间超过 20 分钟时,打分的准确性开始下降。尤其是对于推理模型和图片理解场景的评估,模型的生成内容越来越复杂,评估难度越来越大,为了避免人的疲劳带来的打分置信度下降,必须采用全双盲的评估手段。

7. 凡统计,必推断

评测是抽样问题,样本的描述性统计指标(均值,中位数等)不代表全体。样本统计量数值的绝对排序并不一定意味着模型 A 就肯定比模型 B 要好。

gpt-4o-system-card VBench 的榜单,86.22%和85.71% 之间能说明什么?

论文 Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach 中提出:在评估大模型时,需要对评估的描述性统计结果进行推断再评估,例如假设检验、方差分析等。

不同大模型对三类 Query 的出图率数据推断分析:
H0:模型A与模型B的出图率一致vs.H1:模型A与模型B的出图率不一致H_0: \text{模型A与模型B的出图率一致} \quad vs. \quad H_1: \text{模型A与模型B的出图率不一致}

Query 类别 A
模型 出图量 未出图量 出图率
A 65 85 43%
B 54 96 36%

Query 类别 B
模型 出图量 未出图量 出图率
A 95 25 79%
B 83 37 69%

Query 类别 C
模型 出图量 未出图量 出图率
A 12 122 9%
B 23 111 17%

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2020-2025 Wang Wei
  • 本站访问人数: | 本站浏览次数:

请我喝杯咖啡吧~

微信