
一篇3大类、283个 LLM 评测基准的最新综述
随着 GPT-4、Qwen3、Llama3 等超大规模模型出现,传统 GLUE/SuperGLUE 已无法覆盖语言模型的能力边界,亟需新的评估体系。
- 核心痛点:
数据污染导致分数虚高;
文化/语言偏差带来不公平评估;
过程可信性与动态环境缺失。
中国科学院&中科大&华南理工大学&哈工大等等。
整体框架速览
图 1:283 个代表性基准的时间轴,纵览 2018-2025 的评估演进。
三大类别 | 覆盖维度 | 代表基准 |
通用能力 | 语言核心、知识、推理 | GLUE, MMLU, BIG-Bench, Chatbot Arena |
领域特化 | 自然科学、人文社科、工程技术 | SciBench, LawBench, HumanEval |
专项风险 | 安全、幻觉、鲁棒、隐私 | SafetyBench, TruthfulQA, JailbreakBench |
3. 通用能力基准:从“能做题”到“会推理”
3.1 语言核心(Linguistic Core)
- 演化 5 阶段
2018 GLUE 统一 9 项 NLU 任务 → 2. 2019 SuperGLUE 提升难度 → 3. 2020 多语言压力测试(Xtreme) → 4. 2021 语义级生成指标(BERTScore/BLEURT) → 5. 2022-今 动态综合框架(HELM, BIG-Bench)
表 1:语言核心基准汇总(GLUE → HELM 的能力维度跃迁)。
- 设计范式升级
从单语种到多语种
从静态任务池到持续生长基准
从单一指标到多维画像(LLM-as-Judge)
3.2 知识(Knowledge)
- 经典范式MMLU 无上下文多选 → MMLU-Pro 加难度 → GPQA “Google-Proof” → SuperGPQA 285 个研究生领域
- 评估哲学
人机对齐:AGIEval 用高考/会考试题
分层粒度:KoLA 把知识拆成“记忆→理解→应用”
多语多模态:M3Exam、CMMMU
表 2:知识基准对比(MMLU vs. KoLA 的评估维度差异)。
3.3 推理(Reasoning)
推理类别 | 关键词 | 代表基准 |
形式逻辑 | 一阶逻辑、SAT、证明 | LogicPro, PrOntoQA |
常识 & 因果 | 多跳、反事实、归因 | StrategyQA, CLadder, CRAB |
应用推理 | 科学问答、交互环境 | ARC, HotpotQA, LiveBench |
表 3:推理基准全景图(逻辑 → 常识 → 应用的三级跃迁)。
4. 领域特化基准:让模型“术业有专攻”
4.1 自然科学
- 数学:GSM8K → MATH → FrontierMath(前沿数学)
- 物理:UGPhysics(本科题+防泄漏)、PhysicsArena(多模态物理过程三阶段评估)
- 化学:ChemSafetyBench(3 万条危险化学知识安全测试)
- 生物:BioMaze(通路推理+图增强 LLM)
表 4:自然科学基准矩阵(学科 × 难度 × 模态)。
4.2 人文社科
- 法律:LawBench(按 Bloom 认知层级细分 20+ 任务)
- 知识产权:IPBench(Recall → Extended Thinking 四级认知深度)
- 教育:EduBench 4000+ 教学场景任务(学生/教师双向)
- 心理学:CPsyCoun 多轮心理咨询对话
- 金融:FinEval 四大金融知识类别
表 5:人文社科基准示例(法律/教育/心理/金融)。
4.3 工程技术
子领域 | 任务示例 | 基准 |
软件工程 | 函数级生成 → 仓库级 PR 修复 | HumanEval, SWE-bench |
芯片设计 | Verilog/RTL 生成 | VerilogEval, RTLLM |
机械/航空 | CAD 脚本、航空制造 QA | CADBench, AeroMfg-QA |
表 6:工程技术基准纵览(代码 → 硬件 → 跨域系统)。
5. 专项风险与可靠性基准
5.1 风险三维图
- 安全JailbreakBench(100+ 越狱技巧)、HarmBench(510 种有害行为自动红队)
- 幻觉TruthfulQA(人类常见误解)、FActScore(长文本原子事实核验)
- 鲁棒性AdvGLUE(14 种文本攻击)、PromptRobust(提示扰动)
- 隐私WikiMIA(记忆检测)、C2LEVA(PII 泄漏)
表 7:风险维度评估矩阵(安全 × 幻觉 × 鲁棒 × 隐私)。
5.2 Agent 评估框架
评估视角 | 关键问题 | 代表基准 |
单点能力 | 规划、工具调用、零样本协作 | FlowBench, SPA-Bench, ZSC-Eval |
综合协同 | 多步任务、跨模态交互 | GAIA, TravelPlanner, AgentBench |
领域专精 | 金融/生物/法律任务 | InvestorBench, BixBench, CourtBench |
安全防护 | 恶意指令、风险判断 | AgentHarm, SafeAgentBench, R-Judge |
表 8:Agent 评估四维框架(能力 → 协同 → 专精 → 安全)。
https://arxiv.org/pdf/2508.15361
A Survey on Large Language Model Benchmarks
本文转载自PaperAgent
