智能置信度过滤:让大模型推理既准确又高效的DeepConf方法

发布于 2025-8-29 07:02
浏览
0收藏

DeepConf使用模型自身的token置信度来保留其最强的推理,在GPT-OSS-120B上相比标准并行思考减少了高达84.7%的token消耗。

大多数系统仍然依赖于带有多数投票的自一致性,这虽然提高了准确率但收益递减,同时消耗大量token。

智能置信度过滤:让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

论文([Deep Think with Confidence](https://arxiv.org/abs/2508.15260v1))核心思想:DeepConf是一种测试时方法,它对模型推理进行局部置信度评分,过滤掉弱推理轨迹,通常能在减少token消耗的同时提高准确率,无需额外训练或调优。

为什么多数投票会遇到瓶颈

•并行思考采样多个推理链并投票

•随着样本增加,准确率增长缓慢

•计算量线性扩展,收益趋于平缓

•这正是DeepConf要解决的痛点

智能置信度过滤:让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

置信度信号

智能置信度过滤:让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

Token置信度:每步前k个候选项的负平均对数概率,直接反映模型在该时刻的确定程度。

组置信度:在滑动窗口内平均token置信度,使得局部低谷可见,不被整条轨迹的噪声掩盖。

尾部置信度:对最后一段token进行平均,因为结束步骤决定最终答案,是好轨迹经常出错的地方。

最低10%组置信度:查看轨迹中最差的部分,这是整体推理不稳定的强指标。

最低组置信度:选择轨迹中单个最弱窗口,这是早期丢弃该轨迹的清晰门槛。

核心价值

DeepConf是一个即插即用的测试时压缩方案,可以就地过滤或停止弱推理,让团队获得更高准确率和大幅token削减,无需重新训练或新的超参数。

离线模式:更智能的投票

DeepConf按置信度分数对轨迹排序,可选择只保留前10%或前90%的高置信度轨迹后进行置信度加权多数投票。

结果对比:

•512条轨迹下,GPT-OSS-120B在AIME 2025上达到:

–99.9%(使用尾部或最低组置信度过滤的DeepConf)

–97.0%(普通投票)

–91.8%(pass@1)

在线模式:生成时早停

•16条轨迹的短暂预热设置停止阈值s

•实时生成过程中,一旦最低组置信度低于s就立即停止该轨迹

•自适应采样循环添加轨迹直到共识足够高或达到预设预算(如512)

智能置信度过滤:让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

为什么局部优于全局

局部置信度能捕捉到模型犹豫或回退的短片段,而全局平均可能会隐藏这些问题,因为早期的高置信度文本会稀释后期错误。

当模型对错误路径过度自信时,保守的前90%过滤器降低风险,同时平均仍能击败或匹配普通投票。

实验结果:

•🎯 AIME 2025上99.9%准确率(vs 97%基线)

•📈 5个模型×5个数据集上的通用提升

•🔄 所有设置下一致的~10%准确率提升

智能置信度过滤:让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

智能置信度过滤:让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

本文转载自​​​​​​​​​​AI帝国​​​​​​​​​​,作者:无影寺

收藏
回复
举报
回复
相关推荐