只需50美元!最简单的推理扩展方案,效果媲美o1!
这个工作目标是,找到一种简单的方法,可以实现testtimescalling。关键点有2个,构建高质量的监督数据1k,用于监督微调;一个BudgetForcing的方法,用于限定模型的推理过程。经过这么一折腾,模型的性能随着推理token数量变长而编号。如何构建高质量的1k数据初始收集:从16个不同的来源收集了59,029个问题,包括NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval等。最终筛选:通过质量、难度和多样性三个标准,从59K个问题中...