一篇3大类、283个 LLM 评测基准的最新综述

发布于 2025-8-29 06:34
浏览
0收藏

随着 GPT-4、Qwen3、Llama3 等超大规模模型出现,传统 GLUE/SuperGLUE 已无法覆盖语言模型的能力边界,亟需新的评估体系。

  • 核心痛点

数据污染导致分数虚高;

文化/语言偏差带来不公平评估;

过程可信性与动态环境缺失。

中国科学院&中科大&华南理工大学&哈工大等等。

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

整体框架速览

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

图 1:283 个代表性基准的时间轴,纵览 2018-2025 的评估演进。

三大类别

覆盖维度

代表基准

通用能力

语言核心、知识、推理

GLUE, MMLU, BIG-Bench, Chatbot Arena

领域特化

自然科学、人文社科、工程技术

SciBench, LawBench, HumanEval

专项风险

安全、幻觉、鲁棒、隐私

SafetyBench, TruthfulQA, JailbreakBench

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

3. 通用能力基准:从“能做题”到“会推理”

3.1 语言核心(Linguistic Core)

  • 演化 5 阶段

2018 GLUE 统一 9 项 NLU 任务 → 2. 2019 SuperGLUE 提升难度 → 3. 2020 多语言压力测试(Xtreme) → 4. 2021 语义级生成指标(BERTScore/BLEURT) → 5. 2022-今 动态综合框架(HELM, BIG-Bench)

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

表 1:语言核心基准汇总(GLUE → HELM 的能力维度跃迁)。

  • 设计范式升级

单语种多语种

静态任务池持续生长基准

单一指标多维画像(LLM-as-Judge)

3.2 知识(Knowledge)

  • 经典范式MMLU 无上下文多选 → MMLU-Pro 加难度 → GPQA “Google-Proof” → SuperGPQA 285 个研究生领域
  • 评估哲学

人机对齐:AGIEval 用高考/会考试题

分层粒度:KoLA 把知识拆成“记忆→理解→应用”

多语多模态:M3Exam、CMMMU

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

表 2:知识基准对比(MMLU vs. KoLA 的评估维度差异)。

3.3 推理(Reasoning)

推理类别

关键词

代表基准

形式逻辑

一阶逻辑、SAT、证明

LogicPro, PrOntoQA

常识 & 因果

多跳、反事实、归因

StrategyQA, CLadder, CRAB

应用推理

科学问答、交互环境

ARC, HotpotQA, LiveBench

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

表 3:推理基准全景图(逻辑 → 常识 → 应用的三级跃迁)。

4. 领域特化基准:让模型“术业有专攻”

4.1 自然科学

  • 数学:GSM8K → MATH → FrontierMath(前沿数学)
  • 物理:UGPhysics(本科题+防泄漏)、PhysicsArena(多模态物理过程三阶段评估)
  • 化学:ChemSafetyBench(3 万条危险化学知识安全测试)
  • 生物:BioMaze(通路推理+图增强 LLM)

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

表 4:自然科学基准矩阵(学科 × 难度 × 模态)。

4.2 人文社科

  • 法律:LawBench(按 Bloom 认知层级细分 20+ 任务)
  • 知识产权:IPBench(Recall → Extended Thinking 四级认知深度)
  • 教育:EduBench 4000+ 教学场景任务(学生/教师双向)
  • 心理学:CPsyCoun 多轮心理咨询对话
  • 金融:FinEval 四大金融知识类别

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

表 5:人文社科基准示例(法律/教育/心理/金融)。

4.3 工程技术

子领域

任务示例

基准

软件工程

函数级生成 → 仓库级 PR 修复

HumanEval, SWE-bench

芯片设计

Verilog/RTL 生成

VerilogEval, RTLLM

机械/航空

CAD 脚本、航空制造 QA

CADBench, AeroMfg-QA

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

表 6:工程技术基准纵览(代码 → 硬件 → 跨域系统)。

5. 专项风险与可靠性基准

5.1 风险三维图

  • 安全JailbreakBench(100+ 越狱技巧)、HarmBench(510 种有害行为自动红队)
  • 幻觉TruthfulQA(人类常见误解)、FActScore(长文本原子事实核验)
  • 鲁棒性AdvGLUE(14 种文本攻击)、PromptRobust(提示扰动)
  • 隐私WikiMIA(记忆检测)、C2LEVA(PII 泄漏)

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

表 7:风险维度评估矩阵(安全 × 幻觉 × 鲁棒 × 隐私)。

5.2 Agent 评估框架

评估视角

关键问题

代表基准

单点能力

规划、工具调用、零样本协作

FlowBench, SPA-Bench, ZSC-Eval

综合协同

多步任务、跨模态交互

GAIA, TravelPlanner, AgentBench

领域专精

金融/生物/法律任务

InvestorBench, BixBench, CourtBench

安全防护

恶意指令、风险判断

AgentHarm, SafeAgentBench, R-Judge

一篇3大类、283个 LLM 评测基准的最新综述-AI.x社区

表 8:Agent 评估四维框架(能力 → 协同 → 专精 → 安全)。

https://arxiv.org/pdf/2508.15361
A Survey on Large Language Model Benchmarks

本文转载自PaperAgent

已于2025-8-29 10:51:01修改
收藏
回复
举报
回复
相关推荐