智能置信度过滤：让大模型推理既准确又高效的DeepConf方法

sbf_2000

发布于 2025-8-29 07:02

浏览

0收藏

DeepConf使用模型自身的token置信度来保留其最强的推理，在GPT-OSS-120B上相比标准并行思考减少了高达84.7%的token消耗。

大多数系统仍然依赖于带有多数投票的自一致性，这虽然提高了准确率但收益递减，同时消耗大量token。

智能置信度过滤：让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

论文([Deep Think with Confidence](https://arxiv.org/abs/2508.15260v1))核心思想：DeepConf是一种测试时方法，它对模型推理进行局部置信度评分，过滤掉弱推理轨迹，通常能在减少token消耗的同时提高准确率，无需额外训练或调优。

为什么多数投票会遇到瓶颈

•并行思考采样多个推理链并投票

•随着样本增加，准确率增长缓慢

•计算量线性扩展，收益趋于平缓

•这正是DeepConf要解决的痛点

智能置信度过滤：让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

置信度信号

智能置信度过滤：让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

Token置信度：每步前k个候选项的负平均对数概率，直接反映模型在该时刻的确定程度。

组置信度：在滑动窗口内平均token置信度，使得局部低谷可见，不被整条轨迹的噪声掩盖。

尾部置信度：对最后一段token进行平均，因为结束步骤决定最终答案，是好轨迹经常出错的地方。

最低10%组置信度：查看轨迹中最差的部分，这是整体推理不稳定的强指标。

最低组置信度：选择轨迹中单个最弱窗口，这是早期丢弃该轨迹的清晰门槛。

核心价值

DeepConf是一个即插即用的测试时压缩方案，可以就地过滤或停止弱推理，让团队获得更高准确率和大幅token削减，无需重新训练或新的超参数。

离线模式：更智能的投票

DeepConf按置信度分数对轨迹排序，可选择只保留前10%或前90%的高置信度轨迹后进行置信度加权多数投票。

结果对比：

•512条轨迹下，GPT-OSS-120B在AIME 2025上达到：

–99.9%（使用尾部或最低组置信度过滤的DeepConf）

–97.0%（普通投票）

–91.8%（pass@1）

在线模式：生成时早停

•16条轨迹的短暂预热设置停止阈值s

•实时生成过程中，一旦最低组置信度低于s就立即停止该轨迹

•自适应采样循环添加轨迹直到共识足够高或达到预设预算（如512）

智能置信度过滤：让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

为什么局部优于全局

局部置信度能捕捉到模型犹豫或回退的短片段，而全局平均可能会隐藏这些问题，因为早期的高置信度文本会稀释后期错误。

当模型对错误路径过度自信时，保守的前90%过滤器降低风险，同时平均仍能击败或匹配普通投票。

实验结果：

•🎯 AIME 2025上99.9%准确率（vs 97%基线）

•📈 5个模型×5个数据集上的通用提升

•🔄 所有设置下一致的~10%准确率提升

智能置信度过滤：让大模型推理既准确又高效的DeepConf方法-AI.x社区图片

本文转载自AI帝国，作者：无影寺

标签

大模型

DeepConf

智能

相关推荐

让大模型不再「巨无霸」，这是一份最新的大模型参数高效微调综述

轻薄滴假象 • 3668浏览 • 0回复
「专业智能体指导」让小模型学会数学推理！微调Mistral-7B实现86.81%准确率

duhorse • 3615浏览 • 0回复
让机器准确「看懂」手物交互动作，清华大学等提出GeneOH Diffusion方法

轻薄滴假象 • 4149浏览 • 0回复
LACIE：大语言模型中用于置信度校准的听众感知微调

AIGC最前线 • 4220浏览 • 0回复
增加大模型推理能力的几个提示方法

AIRoobt • 5693浏览 • 0回复
突破大语言模型的逻辑瓶颈：Logic-of-Thought方法让LLM更懂"推理" | 用外部数据增强大语言模型：RAG全面解

sbf_2000 • 5704浏览 • 0回复
谷歌提出视觉记忆方法，让大模型训练数据更灵活

Aceryt • 3225浏览 • 0回复
机械鹦鹉与真正的智能：大语言模型推理能力的迷思

Baihai_IDP • 3818浏览 • 0回复
继QWQ后，通义千问又开源视觉推理大模型！

NLP工作站 • 3747浏览 • 0回复
进化搜索策略，提高LLM推理深度；学术搜索智能体，RL+PPO；LLM回答置信度

AI研究前瞻 • 3396浏览 • 0回复
S1：简单高效的测试时推理能力扩展方法

上堵吟1 • 3589浏览 • 0回复
新的推理模型编码能力爆表！是的，那个王，他又回来了！

老蛀虫 • 3676浏览 • 0回复
Search-R1：让大模型学会“检索+推理”的新范式

arnoldzhw • 3700浏览 • 0回复
关于大模型智能体意图识别不准确问题——function call的缺陷

AI探索时代 • 5444浏览 • 0回复
掌握这5个技巧，让你的大模型交互更高效！

Halo咯咯 • 7309浏览 • 0回复
AI代理评估：如何确保你的智能助手靠谱又高效？

Halo咯咯 • 2320浏览 • 0回复
大模型自适应推理：让 AI 学会 “按需思考” 的核心方法

鸿煊的学习笔记 • 2891浏览 • 0回复
Embedding 优化七大关键：提升检索准确率的系统方法

Halo咯咯 • 1290浏览 • 0回复
Meta新方法DeepConf：大模型推理的 “笨毛病” 治好了！少写一半内容，还更准

十一月雨_55 • 1419浏览 • 0回复

sbf_2000

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

智能置信度过滤：让大模型推理既准确又高效的DeepConf方法

置信度信号

核心价值

离线模式：更智能的投票

目录