论文分享,ReinforcementLearningforReasoninginLargeLanguageModelswithOneTrainingExample这个论文看起来挺有意思,比较反常识,代码开源:https:github.comypwang61OneShotRLVR。在Math500上,让Qwen2.5Math1.5B性能翻倍,从36%提升到73.6%。让Qwen2.5Math7B,从51%提升到79.2%。仅需要1个样本进行强化学习训练即可达到。如下图,最终收敛跟蓝色线(一个1000多个样本的数据集)训练出来的效果差不多。那这个样本到底是个什么...