当机器人在演示视频中表现完美,却在真实环境中频频失误,该如何客观评估它们的真实能力?RoboChallenge的出现正在改变这一现状。 近日,全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试——RoboChallenge正式发布。这一由Dexmal原力灵机联合HuggingFace共同发起的基准测试,意味着着具身智能走向“现实世界智能”的关键一步。  长期以来,机器人领域缺乏统一、开放且可复现的基准...
 今天,阿里通义千问团队正式宣布开源Qwen3VL系列的4B与8B版本,以更小的参数量实现了接近上一代72B旗舰模型的性能表现,为资源受限的开发环境提供了新的选择。 两款模型均提供Instruct和Thinking两个版本,满足不同场景下的使用需求。 在多模态性能方面,Qwen3VL8BInstruct在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等30项权威基准测评中取得SOTA成绩,超越了Gemini2.5FlashLite、GPT5Nano以...
当科技巨头们竞相投入数亿美元开发大语言模型时,前特斯拉AI总监、OpenAI创始成员卡帕西却走上了一条截然不同的道路。 今天,AI大牛卡帕西发布了名为“nanochat”的全新开源项目,瞬间引爆整个社区。 截至目前,该项目在GitHub上获得了9000颗星。  卡帕西本人形容这是“最疯狂的代码之一”,承诺仅用100美元的成本和4小时的训练时间,就能帮助任何人从零开始构建属于自己的ChatGPT级别聊天机器人。 &e...
马斯克也要入局世界模型大战了。 最近,马斯克旗下的人工智能公司xAI正加速推进世界模型研发。据《金融时报》报道,xAI已从英伟达挖来两名核心研究员,计划将世界模型技术应用于游戏和机器人领域。  世界模型是一种能够理解物理环境动态特征的生成式AI模型,它可以利用文字、图像、视频及动作数据生成影片,并实现对现实世界的自主导航与模拟。与当前主流的大语言模型不同,世界模型通过学习视频和机器人数据来...
今天,快手Kwaipilot团队开源了KATDev72BExp模型,该模型在软件开发能力评测基准SWEBenchVerified上取得了74.6%的卓越性能,创造了开源模型的新纪录。  此次登顶不仅超越了此前表现优异的Qwen3Coder等强大的开源模型,还表现出对标顶尖闭源模型的实力。 SWEBench是全球公认的软件工程基准测试,要求模型真实理解代码库、修复错误并实现功能。KATDev72BExp的优异表现,证明了其在处理复杂编程任务上的强大能力。&...
你是否体验过这样的场景:当你在AI的对话框里输入“我觉得未来很迷茫”,AI聊天框几乎瞬间弹出回应:“我能理解你的感受,这种感觉是很多人都会经历的。你愿意和我聊聊最近发生了什么吗?”而这,几乎成为大多数年轻人的日常。 根据复旦发展研究院等机构发布的《中国青年网民社会心态调查报告(2024)》,一个值得关注的数据是,13.5%的年轻人更倾向于向AI倾诉心事,这一比例甚至超过了父母亲人。 另一项由中国青年报...
在国庆假期结束之际,开源领域迎来了全新万亿级语言模型——蚂蚁集团发布通用语言模型Ling1T,在多项复杂推理基准中取得突破。 今天凌晨,蚂蚁集团正式发布了其百灵大模型Ling2.0系列的首款旗舰模型——Ling1T。这个拥有万亿参数规模的通用语言模型,不仅是蚂蚁百灵团队迄今规模最大、能力最强的非思考大模型,更在多项国际权威测试中展现了卓越的性能。  根据官方发布的信息,Ling1T在有限输出Token条件下,于...
在国际权威大模型竞技场LMArena的最新文生图榜单上,腾讯混元图像3.0从全球26个大模型中脱颖而出,位居第一。 最近,Hunuanimage3.0登顶大模型竞技场LMArena榜单,超越nanobanana等一众闭源大模型,成为文生图领域当之无愧的最佳模型。  LMArena官方社交平台第一时间发文祝贺,称混元图像3.0同时被评为“最佳综合文生图模型与最佳开源文生图模型”。  LMArena是美国加州大学伯克利分校推出的创新AI模...
想象一下,当我们能够将自己植入任何一个AI生成的场景——与恐龙共舞、在火星漫步、或是成为童话故事的主角,社交媒体的定义正被彻底改写。 最近,自OpenAI于9月30日正式发布Sora2,并同步推出名为“Sora”的AI视频社交应用后,尽管仍采用邀请制,但Sora2已成为各大社交平台热议的焦点。  “AI视频的ChatGPT时刻”足以代表Sora的震撼性。但除了强大的同步对话和音效能力,这次更新带来的更深层次的变革,或许在...
2025-10-03 21:52:53 1548浏览 0点赞 0回复 0收藏
昨天,DeepSeek正式发布并开源了DeepSeekV3.2Exp模型,新模型引入的稀疏注意力架构不仅带来了计算效率的显著提升,更实现了API价格的大幅下调。同时,新架构还与国产芯片深度协同,适配多家国产芯片厂商。  DeepSeekV3.2Exp作为一个实验性版本,在其前代模型V3.1Terminus的基础上引入了DeepSeekSparseAttention稀疏注意力机制。这一架构创新突破了传统Transformer架构的限制,让模型在处理每个字符时能够只关注那些与...
2025-09-30 16:35:18 1920浏览 0点赞 0回复 0收藏
当你向ChatGPT倾诉心事时,可能不会意识到,屏幕那头的“倾听者”已经悄悄换了一个更严格的模型。这就是OpenAI正在秘密测试的新安全路由系统。 OpenAI正在ChatGPT中测试一项新的安全路由系统,该系统能根据对话主题自动将用户提示重定向到不同的语言模型。ChatGPT负责人NickTurley证实,当讨论涉及“敏感或情感话题”时,系统会自动介入,将用户提示发送到更严格的模型。  无声的切换 这种模型切换是静默进...
2025-09-29 17:00:26 1577浏览 0点赞 0回复 0收藏
Kimi新功能来了,全新Agent模式OKComputer开启灰度测试昨天,Kimi对全新Agent模式OKComputer启动灰度测试,并基于KimiK2模型的能力,为用户提供自主Agent服务。Kimi新功能来了。这次是全新智能体模式——OKComputer。等等,这熟悉的名字,与英国摇滚乐队Radiohead在1997年发行的经典专辑《OKComputer》不约而同,可能这也是团队对这张经典专辑的致敬行为吧。毕竟,这是一个连会议室的名称都用枪花、皇后等摇滚乐队来命名的团队...
2025-09-26 18:09:22 2043浏览 0点赞 0回复 0收藏
OpenAI的“星际之门”计划近期与甲骨文和软银合作,新建5个大型人工智能数据中心,旨在三年内建设7GW算力容量,相当于7座大型核电站的功率输出。当各大巨头以万亿级算力基建驱动AI竞赛,我们不得不思考:普通开发者是否还能在AI浪潮中找到立足之地? “星际之门”的历史性投资 OpenAI的“星际之门”计划正在全速推进。近日,OpenAI在获得英伟达1000亿美元投资承诺后,迅速宣布与甲骨文和软银合作,在美国新建5个大型...
2025-09-25 19:15:13 685浏览 0点赞 0回复 0收藏
近几年,“AI会抢工作”的说法已经不算少见,但如果有一天,AI能搞定所有“必须做”的事——从发电、建房子到搞科研,人类还能靠什么赚钱?经济还会增长吗? 最近,耶鲁大学一篇名为《WeWontbeMissed:WorkandGrowthintheEraofAGI》(《我们不会被怀念:AGI时代的工作与增长》)的论文,预测了AGI时代下,通用人工智能对工作、工资和经济的真正影响。  需要明确的是AGI不是更聪明的AI,是能替人干所有有价值工作...
2025-09-24 19:24:53 1464浏览 0点赞 0回复 0收藏
阿里云又在深夜放出了新东西,这次是Qwen系列的多重更新:QwenImage迎来月度大升级,Qwen3Omni全模态模型、语音生成模型Qwen3TTS也同步开源。  这次或许真的可以和谷歌NanoBanana说再见了。升级后的QwenImage2509,针对性解决了之前图像编辑里的不少麻烦。之前处理多张图片拼接时,总容易出现边缘生硬、风格不统一的问题,现在它能轻松应对“人+产品”“人+场景”这类组合输入,1到3张图的融合效果尤其自然。 &e...
2025-09-23 18:56:41 2230浏览 0点赞 0回复 0收藏
当整个行业都在比拼千亿参数模型时,大模型真正需要的可能不是更大的规模。在硅谷举行的HotChips2025首日主题演讲上,Transformer发明者之一、谷歌Gemini联合负责人NoamShazeer给出了不一样的答案。  作为谷歌Gemini的联合负责人,NoamShazeer认为语言建模是"有史以来最好的问题",但他指出大模型真正需要的是三大硬件支撑:更高的计算能力、更大的内存容量和带宽,以及更快的网络带宽。 很多人不知道,2015年时...
2025-09-22 18:48:33 1678浏览 0点赞 0回复 0收藏
昨天,芯片行业发生了一场大地震。英伟达宣布以50亿美元(约合人民币355亿元)入股英特尔,两大芯片巨头从数十年的竞争关系转向战略合作。这一消息直接推动英特尔股价暴涨超30%,创下1987年以来最大单日涨幅,市值一夜之间增长超270亿美元。  作为芯片行业两大巨头,此次合作或许将为计算产业格局带来深刻影响。 根据协议,英伟达将以每股23.28美元的价格收购英特尔普通股,交易完成后将成为英特尔的大股东之一...
2025-09-19 15:06:53 861浏览 0点赞 0回复 0收藏
 今天,斯坦福大学教授李飞飞初创的WorldLabs公司发布了名为Marble的空间智能模型测试版,仅凭一张图片或文本提示就能生成持久存在、可无限探索的3D世界。这意味着用户可以通过简单输入,创建出规模宏大、风格多样、几何结构清晰的虚拟环境,并能自由导航探索。 与以往的3D生成技术最大的区别在于,Marble创建的3D世界具有持久性和一致性。用户生成的场景不会随时间变化或出现变形,而且可以通过组合多个生成结果来构...
2025-09-17 18:17:51 2675浏览 0点赞 0回复 0收藏
今天凌晨,OpenAI发布了基于GPT5的Codex升级版本——GPT5Codex,专门针对编程任务而优化。新版本最大的突破在于引入了动态思考能力,能够根据任务复杂度自主调整处理时间,从几秒钟到长达7小时不等。  与之前版本的Codex相比,GPT5Codex在处理简单任务时效率显著提高。内部数据显示,对于最底部10%的简单请求,新模型比标准GPT5少用了93.7%的计算资源。 与此同时,GPT5Codex的思考时间更长,其推理、编辑和测试...
2025-09-16 17:23:52 3068浏览 0点赞 0回复 0收藏
近日,马斯克旗下的人工智能公司xAI近日进行大规模裁员,约500名数据标注员被解雇,约占团队总人数的13。这些员工原本负责训练Grok聊天机器人,通过对原始数据的分类和语境化,帮助人工智能理解世界。  被裁员工收到了公司通过电子邮件发送的解雇通知。公司告知员工将终止大部分“通用型AI导师”岗位,但承诺支付薪酬至合同原定结束时间或11月30日。不过,这些员工的系统访问权限在裁员通知当天即被终止。 与此...
2025-09-15 18:30:26 882浏览 0点赞 0回复 0收藏