阿里开源QwenLong-L1:首个以强化学习训练的长上下文推理大模型
LRMs在通过强化学习(RL)提升了推理能力,但,扩展到长文本场景(如120Ktokens)仍然是一个未解决的挑战,为此,阿里提出并开源了QwenLongL1框架,首个通过强化学习训练用于长文本情境推理的长文本情境大型推理模型(LRM)。QwenLongL132B优于OpenAIo3mini和Qwen3235BA22B等旗舰LRMs,其性能与Claude3.7SonnetThinking相当,展现出在最先进的LRMs中领先的性能。QwenLongL1是一个新颖的强化学习(RL)框架,旨在促进LRM从短上下文...