无需标注数据!TTRL用“少数服从多数”解锁大模型测试时强化学习新范式
今天分享一篇来自清华大学和上海人工智能实验室的文章,标题为TTRL:TestTimeReinforcementLearning(测试时强化学习)。这篇文章探讨了一个重要且具有挑战性的问题:如何在没有显式标签(groundtruth)的情况下,利用强化学习(RL)在测试阶段提升大型语言模型(LLM)在推理任务上的性能。核心挑战在于测试时无法获得真实的奖励信号。研究者们发现,像多数投票(majorityvoting)这类在测试时扩展(TestTimeScaling,TTS)中常用...