刚刚过去的几天,科技圈和数学界因2025年的国际数学奥林匹克竞赛(IMO)而异常热闹。首先,让我们为真正的冠军——中国队——献上最热烈的祝贺!六名队员以绝对优势再次为中国捧回团体总分第一的桂冠,基本上可以说咱中国人的智商碾压全世界,作为中国人,咱们倍感骄傲与自豪。然而,在这场人类智慧的巅峰对决之外,另一场关于人工智能(AI)的“竞赛”也赚足了眼球。先是OpenAI略带尴尬地宣布其模型达到“金牌水平”,后又被指...
在大语言模型(LLM)的进化之路上,我们熟知两大基石:预训练,如同海量知识的灌输,让模型博闻强识;微调(无论是监督学习还是强化学习),则更像行为塑造,教会模型如何“得体”地回应,比如习得特定的对话风格。这两种方式,都在潜移默化中改变着模型的“内在记忆”——也就是那些神经网络的参数。一种LLM缺失的重要学习方式——“系统提示学习”?反观人类的学习,似乎还存在一种更为直接、更为“显性”的模式。想象一下,...
2025-07-07 07:34:59 612浏览 0点赞 0回复 0收藏
这两天重读了一篇很有趣的论文,《Effectoftheinitialconfigurationofweightsonthetrainingandfunctionofartificialneuralnetworks》(https:arxiv.orgpdf2012.02550)。它非常直白的展示了人工神经网络训练过程中的初始权重配置对网络功能和性能的影响。通俗来讲,神经网络就像是一台复杂的机器,它内部有很多“开关”(也就是权重),这些开关从一开始就有随机的初始设置。在训练过程中,这些开关的设置会一点一点调整,目标...
2025-06-23 07:28:16 666浏览 0点赞 0回复 0收藏
想象一下,一种专门为某个人量身打造的药物,能够精确修复他体内导致疾病的那个小小的基因“印刷错误”。这听起来像是科幻小说里的情节,但如今,它正悄然照进现实。最近,一名叫KJ的婴儿成为了这个医学奇迹的主角。他患有一种罕见的遗传性肝脏疾病,由于基因突变,身体无法正常分解蛋白质,导致有毒物质氨在体内累积,严重威胁着他的大脑发育和生命健康。传统的治疗方法对于KJ这样严重的病例往往效果有限,预后不佳。然而,来...
2025-06-10 06:59:33 1033浏览 0点赞 0回复 0收藏
在大语言模型(LLM)的进化之路上,我们熟知两大基石:预训练,如同海量知识的灌输,让模型博闻强识;微调(无论是监督学习还是强化学习),则更像行为塑造,教会模型如何“得体”地回应,比如习得特定的对话风格。这两种方式,都在潜移默化中改变着模型的“内在记忆”——也就是那些神经网络的参数。一种LLM缺失的重要学习方式——“系统提示学习”?反观人类的学习,似乎还存在一种更为直接、更为“显性”的模式。想象一下,...
2025-05-28 06:22:20 1008浏览 0点赞 0回复 0收藏
已有的大模型能否通过PromptEngineering达到O1类似的推理水平?我见过很多尝试,在个别案例上有观察到惊艳的推理效果,但大多没有普遍提升已有大模型的推理能力。今天看到这个方法,感觉是通过PromptEngineering可以有效普遍提升大模型的推理能力。以下就是那个MagicPrompt,先睹为快。作者准备了50道需要长推理过程的问题,分别测试几种场景:ClaudeSonnet+上述PromptClauseSonnetLlama3.18B+上述PromptLlama3.18BChatGPT4o+上...
2025-05-14 06:55:34 965浏览 0点赞 0回复 0收藏
大语言模型(LLM)的飞速发展正深刻改变着我们与信息和技术交互的方式(想想大家有多久不用传统搜索引擎了)。它们展现出的能力令人瞩目,但要驱动它们超越模仿,在复杂推理、规划和解决未知问题等层面达到更高的“智能”水平,传统的预训练(Pretrain)和监督微调(SFT)范式显得力有不逮。强化学习(RL),特别是结合人类或规则反馈的RLHFRL,已成为关键的引擎,推动LLM智能向更高层级跃迁。RL的核心在于赋予模型一种“目标导...
2025-04-28 00:25:51 1790浏览 0点赞 0回复 0收藏
人工智能(AI)快速发展,模型训练是核心环节,优化器扮演着至关重要的角色,它负责调整模型的参数,让模型在数据上表现得更好。多年来,AdamW优化器一直是优化器的标杆,因其稳定性和高效性深受研究者和工程师的喜爱。然而,随着AI模型规模的不断扩大,训练成本和时间的需求也在激增,这让人们开始寻找更高效的优化方法。近期,一种名为Muon的优化器算法悄然出现(源代码https:github.comKellerJordanMuon),...
2025-04-17 06:40:28 1743浏览 0点赞 0回复 0收藏
DeepSeekR1在数学推理、问题解决等复杂任务上的表现令全世界瞩目。它在AIME2024等高难度数学测试中取得了79.8分好成绩(OpenAIo11217得分79.2)。而这一切的背后,有一个关键技术功不可没——GroupRelativePolicyOptimization(GRPO),一种基于强化学习的优化算法。尽管GRPO教会R1高智商推理,但有研究人员发现,它存在一些缺陷,比如它会导致模型生成冗长的错误回答,或者更倾向于解决简单问题而忽略难题。大家在用DeepSeekR1...
2025-04-07 00:08:13 2630浏览 0点赞 0回复 0收藏
开源世界的期待与涟漪人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演着特殊的角色。回想Llama2的横空出世和开源姿态,极大地降低了高性能大模型的门槛,在全球范围内点燃了研究和应用的热情,催生了无数创新,其影响力至今仍在激荡。相较之下,Llama3的发布虽然带来了性能提升,但在社区看来,似乎少了些Llama2那样的颠覆性震撼,更像是一次稳健但略显保守的迭代。在这样的背景下,Llama4的发布承载了社区极高的期待。4月6日...
2025-04-07 00:04:09 2109浏览 0点赞 0回复 0收藏
人工智能(AI)快速发展,模型训练是核心环节,优化器扮演着至关重要的角色,它负责调整模型的参数,让模型在数据上表现得更好。多年来,AdamW优化器一直是优化器的标杆,因其稳定性和高效性深受研究者和工程师的喜爱。然而,随着AI模型规模的不断扩大,训练成本和时间的需求也在激增,这让人们开始寻找更高效的优化方法。近期,一种名为Muon的优化器算法悄然出现(源代码https:github.comKellerJordanMuon),...
2025-03-25 00:43:07 2677浏览 0点赞 0回复 1收藏
2月28日OpenAI发布了GPT4.5,OpenAI称这是其迄今为止最大的预训练模型。我有点期待GPT4.5会带来令人振奋的突破。然而,从官方披露的信息以及实际表现来看,GPT4.5没有展现出超越前代模型的显著优势。有点“强弩之末”的感觉。可能再次验证了业界比较广泛的认知:“单纯扩大模型参数规模,对性能提升的边际效应正在递减”。接下来分几个章节,谈谈我的感受。期待与现实的落差GPT4.5被OpenAI定位为“ourlargestandbestmodelforcha...
2025-03-13 06:57:59 3634浏览 0点赞 0回复 0收藏
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老师在教一个学生写作文。传统的强化学习方法(比如PPO)会给学生的每一句话打分,告诉他这句好,那句不好。但GRPO不这么做,它更像是一位“佛系”老师:不看过程,看结果:GRPO不会逐句指导学生,而是让学生一口气写完几篇不同的作文(一组作文)。几篇作文一起比较:然后,老师把这几篇作文放在一起比较,根据一个预先定好的规则(基于规则的奖励模型),评判...
2025-02-28 12:15:57 4962浏览 0点赞 0回复 0收藏