视觉语言世界模型来了!AI不仅能看懂视频,还能自我反思制定计划,离人类思维更近一步!
社区头条 文章地址:https:arxiv.orgpdf2509.02722亮点直击提出学习一种以自然语言作为抽象世界状态表示的世界模型。引入了视觉语言世界模型(VisionLanguageWorldModel,VLWM),该模型通过视觉观察感知环境,并利用基于语言的抽象来预测世界的演化过程。提出将直接世界建模作为目标,并以大规模、未经过滤的视频数据为基础进行训练。采用了一条高效的抽象处理流程,并引入了一种反思式的System2模式,即“带推理的规划(planningwithrea...