视觉"顿悟时刻"被破解!MM-Eureka:大规模强化学习触发多模态模型能力涌现
Code:https:github.comModalMindsMMEUREKAModel:https:huggingface.coFanqingMMMEurekaZero38Bhttps:huggingface.coFanqingMMMEureka8BDataset:https:huggingface.codatasetsFanqingMMMEurekaDatasetWhyWeDO?目前的研究大多未能在多模态环境中复现DeepSeekR1的关键特性,如回答长度的稳定增长和准确率奖励。例如,R1V仅在简单计数任务上有所改进,但未能复现回答长度增长和"顿悟时刻"...