分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别

发布于 2025-5-14 00:05
浏览
0收藏

对模型的泛化性能进行评估,不仅需要有效可行的试验估计方法,还需要具有衡量模型泛化能力的评价标准,即性能度量。且在不同的任务中对比模型的性能时,使用不同的性能度量往往会导致不同的评判结果。在分类任务中,最常用的性能度量有错误率、精度、查准率、查全率、F1分数及AUC-ROC曲线。

本文将首先介绍错误率、精度、查准率、查全率、P-R曲线与平衡点及F1分数的详细原理

1.错误率与精度

(1) 错误率(error rate)是分类错误的样本数占样本总数(m)的比例。计算公式可表示为:

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

(2) 精度(accuracy)是分类正确的样本数占样本总数的比例。计算公式可表示为:

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

2.查准率与查全率

(1) 二分类混淆矩阵:在二分类问题中,可将样本根据其真实类别与模型预测类别的组合划分为真正例、假正例、真反例与假反例四种情形。

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

(2) 查准率(或准确率)定义为:在预测结果为正例的所有样例中,预测正确(真实情况也为正例)的概率。

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

(3) 查全率(或召回率)定义为:在真实情况为正例的所有样例中,预测正确(预测结果也为正例)的概率。

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

(4) 查准率与查全率是一对矛盾的变量。一般来说,查准率高时,查全率往往偏低;反之亦然。

(a) 影响两者大小变化的关键在于FP和FN。

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

(b) 假设分类阈值降低,则模型预测结果为正例的样例数量将会增加(同时,模型预测结果为反例的样例数量将会减少),此操作保证尽量不遗漏正例,即TP将会增加。

(b) 同时,此操作将会使真实情况为正例,但预测结果为反例的情况减少,即FN减少。

(c) 同时,此操作将会使真实情况为反例,但预测结果为正例的情况增加,即FP增加。

(d) 综上所述,在分类阈值降低的情况下将会出现,TP变大、FN变小和FP变大的情况。根据查全率和查准率的比值公式可知,二者的比值将会减小。这意味着,查准率P减小了,而查全率R增大了,即二者并非同时变大或变小,而是一者增大则另一者减小。此即证明查准率与查全率的矛盾所在。

(5) 高查准率要求更严格的筛选,希望模型在预测正例时尽量准确,需设置较高的分类阈值,如在病情诊断中,医生倾向于更严格的判断以避免误诊(高查准率),但也可能遗漏部分真实患者(低查全率)。

(6) 高查全率需要放宽筛选,希望尽可能捕获所有正例,需降低分类阈值,以将更多样例标记为正例,例如,在逃犯搜捕中,警方放宽筛选条件以“宁可错查一千”的策略(高查全率),但会误伤大量无辜者(低查准率)。

3.P-R曲线与平衡点

(1) P-R曲线可视化了不同分类阈值下查准率与查全率的动态关系,为解决二者的矛盾,为模型调优、阈值选择及场景适配提供了核心工具。

(2) 绘制P-R曲线

(a) 根据模型预测结果对样例进行排序,排在前面的是模型认为“最可能”是正例的样本,排在后面的是模型认为“最不可能”是正例的样本。

(b) 按此顺序逐个把样本作为正例进行预测(即从大到小将每个样本的预测结果作为分类阈值),则每次可以计算出当前的查全率和查准率。

(c) 最后以查准率为纵轴、查全率为横轴作图,即可得到查准率-查全率曲线,简称P-R曲线。

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

(3) P-R曲线能直观地显示出模型在样本总体上的查全率、查准率。

(a) 若一个模型的P-R曲线被另一个模型的P-R曲线完全包裹,则可断言后者的性能优于前者。如上图中的模型A的性能优于模型C。

(b) 若两个模型的P-R曲线发生交叉,如上图中的A和B,则无法直接断定两者孰优孰劣。一个比较合理的判断依据则是比较P-R曲线下面积的大小,能在一定程度上表征模型在查准率和查全率上取得相对“双高”的比例,但这个值不容易估算。

(4) 为能综合考虑查准率、查全率的性能度量,设计了“平衡点”(Break-Event Point,BEP)这一度量。

(a) BEP是“查准率=查全率”时的取值。如上图中模型C的BEP是0.64。

(b) 故基于BEP的比较,可以认为模型A的性能优于模型B。

(c) 但BEP过于简化,在实际应用中具有局限性。

4.F1度量

(1)为进一步解决查准率与查全率之间的矛盾,相对于简洁的BEP度量,F1度量更为常用。F1是基于查准率和查全率的调和平均定义的。

(2) 调和平均数​

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

    (c) 相对于一般的算术平均,调和平均对较小值更为敏感。例如,若P=0.8,R=0.2,此时,调和平均值为0.32,远低于算术平均值0.5,更能反映模型性能的真实短板。

(3) 根据调和平均的定义,可得到对于查准率和查全率的F1度量的标准形式:

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

(4) F1度量的一般形式分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区能够体现对查准率/查全率的不同偏好,定义为:

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

分类模型性能度量:错误率与精度、查准率与查全率、P-R曲线与平衡点及F1度量的联系与区别-AI.x社区

本文转载自​​​南夏的算法驿站​,作者:赵南夏


收藏
回复
举报
回复
相关推荐