大家可能听说过(希望没有感受过)“超级细菌”感染的可怕。几年前,我的一个同事讲述其父亲在一个有淤泥的池塘里不小心划伤了腿,最终演变成了对多种抗生素都耐药的“超级细菌”感染。老人因此被送进ICU,与死神搏斗了数周,经历了巨大的煎熬,最终吉人天相。但那段经历的凶险,应该会让身边的人至今心有余悸。这个故事,正是我们这个时代正面临的一场危机的缩影:抗生素耐药性。曾被视为医学奇迹的抗生素(如青霉素),正逐渐...
2025-08-26 07:07:25 762浏览 0点赞 0回复 0收藏
在大型语言模型(LLM)的强化学习(RL)领域,一个很有潜力的方向是利用可验证的奖励(VerifiableRewards)进行模型优化,即RLVR。传统的强化学习依赖于人类反馈(RLHF)或者一个专属的价值模型(ValueModel),这可能主观又昂贵。而RLVR通过程序化的、客观的奖励函数来指导模型学习,例如,在数学问题上,答案是否正确是可以通过计算验证的。这种方法为我们提供了一条更高效、可扩展的路径,来增强模型的推理等复杂能力。在RLV...
2025-08-26 06:42:39 2270浏览 0点赞 0回复 0收藏
大模型在服务时的能源消耗一直备受关注,但具体的能耗数据,尤其是来自头部公司的数据,长期处于未知状态。这两天,Google发布了一篇研究论文,首次系统性地披露了其Gemini大模型在真实生产环境中,与用户聊一次(也就是响应一次用户提示,即常说的Prompt)的能源消耗——约0.24瓦时(Wh)。为了让这个数字更具实感,论文将其与日常活动进行了对比:这大致相当于一台现代电视机播放9秒,或是一台家用微波炉运行1秒所消耗的电能,...
2025-08-26 06:40:26 822浏览 0点赞 0回复 0收藏
OpenAI终于打破了自GPT2以来长达六年多的沉寂,再次拥抱开源社区,发布了两个全新的开放权重模型:gptoss120b和gptoss20b。在AI社区激起了千层浪。毕竟,上一个来自OpenAI的开源模型GPT2,几乎以一己之力点燃了全球开发者对大语言模型的热情。我花了点时间研究它之后(源代码和模型权重URL参考末尾附录),有点惊喜,但也有一点失望。惊喜的是,OpenAI确实兑现了承诺,并且模型在特定硬件上的高效表现令人印象深刻;失望的是,...
2025-08-13 06:30:44 1670浏览 0点赞 0回复 0收藏
刚刚过去的几天,科技圈和数学界因2025年的国际数学奥林匹克竞赛(IMO)而异常热闹。首先,让我们为真正的冠军——中国队——献上最热烈的祝贺!六名队员以绝对优势再次为中国捧回团体总分第一的桂冠,基本上可以说咱中国人的智商碾压全世界,作为中国人,咱们倍感骄傲与自豪。然而,在这场人类智慧的巅峰对决之外,另一场关于人工智能(AI)的“竞赛”也赚足了眼球。先是OpenAI略带尴尬地宣布其模型达到“金牌水平”,后又被指...
2025-07-28 00:52:30 2208浏览 0点赞 0回复 0收藏
在大语言模型(LLM)的进化之路上,我们熟知两大基石:预训练,如同海量知识的灌输,让模型博闻强识;微调(无论是监督学习还是强化学习),则更像行为塑造,教会模型如何“得体”地回应,比如习得特定的对话风格。这两种方式,都在潜移默化中改变着模型的“内在记忆”——也就是那些神经网络的参数。一种LLM缺失的重要学习方式——“系统提示学习”?反观人类的学习,似乎还存在一种更为直接、更为“显性”的模式。想象一下,...
2025-07-07 07:34:59 1220浏览 0点赞 0回复 0收藏
这两天重读了一篇很有趣的论文,《Effectoftheinitialconfigurationofweightsonthetrainingandfunctionofartificialneuralnetworks》(https:arxiv.orgpdf2012.02550)。它非常直白的展示了人工神经网络训练过程中的初始权重配置对网络功能和性能的影响。通俗来讲,神经网络就像是一台复杂的机器,它内部有很多“开关”(也就是权重),这些开关从一开始就有随机的初始设置。在训练过程中,这些开关的设置会一点一点调整,目标...
2025-06-23 07:28:16 1041浏览 0点赞 0回复 0收藏
想象一下,一种专门为某个人量身打造的药物,能够精确修复他体内导致疾病的那个小小的基因“印刷错误”。这听起来像是科幻小说里的情节,但如今,它正悄然照进现实。最近,一名叫KJ的婴儿成为了这个医学奇迹的主角。他患有一种罕见的遗传性肝脏疾病,由于基因突变,身体无法正常分解蛋白质,导致有毒物质氨在体内累积,严重威胁着他的大脑发育和生命健康。传统的治疗方法对于KJ这样严重的病例往往效果有限,预后不佳。然而,来...
2025-06-10 06:59:33 1483浏览 0点赞 0回复 0收藏
在大语言模型(LLM)的进化之路上,我们熟知两大基石:预训练,如同海量知识的灌输,让模型博闻强识;微调(无论是监督学习还是强化学习),则更像行为塑造,教会模型如何“得体”地回应,比如习得特定的对话风格。这两种方式,都在潜移默化中改变着模型的“内在记忆”——也就是那些神经网络的参数。一种LLM缺失的重要学习方式——“系统提示学习”?反观人类的学习,似乎还存在一种更为直接、更为“显性”的模式。想象一下,...
2025-05-28 06:22:20 2165浏览 0点赞 0回复 0收藏
已有的大模型能否通过PromptEngineering达到O1类似的推理水平?我见过很多尝试,在个别案例上有观察到惊艳的推理效果,但大多没有普遍提升已有大模型的推理能力。今天看到这个方法,感觉是通过PromptEngineering可以有效普遍提升大模型的推理能力。以下就是那个MagicPrompt,先睹为快。作者准备了50道需要长推理过程的问题,分别测试几种场景:ClaudeSonnet+上述PromptClauseSonnetLlama3.18B+上述PromptLlama3.18BChatGPT4o+上...
2025-05-14 06:55:34 1359浏览 0点赞 0回复 0收藏
大语言模型(LLM)的飞速发展正深刻改变着我们与信息和技术交互的方式(想想大家有多久不用传统搜索引擎了)。它们展现出的能力令人瞩目,但要驱动它们超越模仿,在复杂推理、规划和解决未知问题等层面达到更高的“智能”水平,传统的预训练(Pretrain)和监督微调(SFT)范式显得力有不逮。强化学习(RL),特别是结合人类或规则反馈的RLHFRL,已成为关键的引擎,推动LLM智能向更高层级跃迁。RL的核心在于赋予模型一种“目标导...
2025-04-28 00:25:51 2582浏览 1点赞 0回复 1收藏
人工智能(AI)快速发展,模型训练是核心环节,优化器扮演着至关重要的角色,它负责调整模型的参数,让模型在数据上表现得更好。多年来,AdamW优化器一直是优化器的标杆,因其稳定性和高效性深受研究者和工程师的喜爱。然而,随着AI模型规模的不断扩大,训练成本和时间的需求也在激增,这让人们开始寻找更高效的优化方法。近期,一种名为Muon的优化器算法悄然出现(源代码https:github.comKellerJordanMuon),...
2025-04-17 06:40:28 2451浏览 0点赞 0回复 0收藏
DeepSeekR1在数学推理、问题解决等复杂任务上的表现令全世界瞩目。它在AIME2024等高难度数学测试中取得了79.8分好成绩(OpenAIo11217得分79.2)。而这一切的背后,有一个关键技术功不可没——GroupRelativePolicyOptimization(GRPO),一种基于强化学习的优化算法。尽管GRPO教会R1高智商推理,但有研究人员发现,它存在一些缺陷,比如它会导致模型生成冗长的错误回答,或者更倾向于解决简单问题而忽略难题。大家在用DeepSeekR1...
2025-04-07 00:08:13 3523浏览 0点赞 0回复 0收藏
开源世界的期待与涟漪人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演着特殊的角色。回想Llama2的横空出世和开源姿态,极大地降低了高性能大模型的门槛,在全球范围内点燃了研究和应用的热情,催生了无数创新,其影响力至今仍在激荡。相较之下,Llama3的发布虽然带来了性能提升,但在社区看来,似乎少了些Llama2那样的颠覆性震撼,更像是一次稳健但略显保守的迭代。在这样的背景下,Llama4的发布承载了社区极高的期待。4月6日...
2025-04-07 00:04:09 2836浏览 0点赞 0回复 0收藏
人工智能(AI)快速发展,模型训练是核心环节,优化器扮演着至关重要的角色,它负责调整模型的参数,让模型在数据上表现得更好。多年来,AdamW优化器一直是优化器的标杆,因其稳定性和高效性深受研究者和工程师的喜爱。然而,随着AI模型规模的不断扩大,训练成本和时间的需求也在激增,这让人们开始寻找更高效的优化方法。近期,一种名为Muon的优化器算法悄然出现(源代码https:github.comKellerJordanMuon),...
2025-03-25 00:43:07 3955浏览 0点赞 0回复 1收藏
2月28日OpenAI发布了GPT4.5,OpenAI称这是其迄今为止最大的预训练模型。我有点期待GPT4.5会带来令人振奋的突破。然而,从官方披露的信息以及实际表现来看,GPT4.5没有展现出超越前代模型的显著优势。有点“强弩之末”的感觉。可能再次验证了业界比较广泛的认知:“单纯扩大模型参数规模,对性能提升的边际效应正在递减”。接下来分几个章节,谈谈我的感受。期待与现实的落差GPT4.5被OpenAI定位为“ourlargestandbestmodelforcha...
2025-03-13 06:57:59 5162浏览 0点赞 0回复 0收藏
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老师在教一个学生写作文。传统的强化学习方法(比如PPO)会给学生的每一句话打分,告诉他这句好,那句不好。但GRPO不这么做,它更像是一位“佛系”老师:不看过程,看结果:GRPO不会逐句指导学生,而是让学生一口气写完几篇不同的作文(一组作文)。几篇作文一起比较:然后,老师把这几篇作文放在一起比较,根据一个预先定好的规则(基于规则的奖励模型),评判...
2025-02-28 12:15:57 7315浏览 0点赞 0回复 0收藏