也许是最近开源模型太多(Qwen3、K2、Step3、GLM4.5等等),也许是大家等R2时间太久,DeepSeek开源V3.1模型,竟然能被狂喷,这点我是没有想到的。如果说是APP、客户端,那没办法,毕竟DS的显卡资源有限,我反正能理解。API的话,就真不至于,因为DeepSeekV3.1模型本身就开源,完全可以自己部署之前版本,或者用火山引擎、阿里百炼、硅基流动等等等云模型厂商的老版本API。然后从昨晚到今天,也是看了不少帖子,褒贬不一。跟不少...
7月就很卷了,见国内开源大模型整理,8月没想到依然卷。从一开始的腾讯开源小模型,到Qwen开源Image模型,再到小红书dots.vlm1、面壁MiniCPMV4.0,然后今天智谱又发布了GLM4.5V。对,就这样卷,利好开源社区、利好我们这些开发者!那么今天来看看这个GLM4.5V模型到底如何?先上测试,再聊模型细节!测试除了OCR识别、表格识别、理解计算、网页复刻、报告分享、目标识别、目标对比、数学做题、图片排序、空间逻辑、空间变换、色...
2025-08-18 06:53:00 2053浏览 0点赞 0回复 0收藏
实话实说,本来没有这篇稿子,我并没有太关注BaichuanM2这个模型,因为最近开源社区太火爆了,各家都在卷。7月份见开源模型盘点,而8月刚过半,已经有QwenImage、dots.vlm1、MiniCPMV4.0、GLM4.5V等等等。那么,BaichuanM2这个垂域模型就显得不那么惊艳了(很多人都更关心通用模型),还有百川上次开源M1已经是五六个月前了,当时在群里发AI日报,一众小伙伴都惊讶百川还在发模型。PS:不过我群里有个内应,说他们项目挺多的...
2025-08-18 06:49:31 731浏览 0点赞 0回复 0收藏
腾讯HunYuan又开源了4个端侧小模型0.5B、1.8B、4B、7B,共4个尺寸,主打轻量端侧。Hunyuan0.5B:https:huggingface.cotencentHunyuan0.5BInstructHunyuan1.8B:https:huggingface.cotencentHunyuan1.8BInstructHunyuan4B:https:huggingface.cotencentHunyuan4BInstructHunyuan7B:https:huggingface.cotencentHunyuan7BInstructHunYuan也开始走全系列开源的路子了,是不是跟Qwen干上了呀!我是真没想到,腾讯也开始大规模开源...
2025-08-05 07:19:34 2232浏览 0点赞 0回复 0收藏
腾讯前两天开源了混元A13B模型,A13B模型是一个MoE模型,总参数80B,激活参数13B,同时支持快慢思考两种模式切换。Paper:https:github.comTencentHunyuanHunyuanA13BblobmainreportHunyuanA13BTechnicalReport.pdfHF:https:huggingface.cocollectionstencenthunyuana13b685ec38e5b46321e3ea7c4be腾讯之前开源3D生成模型关注度很高,文本大模型上一次开源已经是5个月前的HunYuan7B和HunYuanLarge模型了。由于Qwen3的系列模型没...
2025-07-11 07:56:12 2277浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。最近开源社区好起来了,先是华为、百度、腾讯,相继开源模型,然后昨天智谱又开源了模型,GLM4.1VThinking,又是被刷屏朋友圈了!但是说实话,一开始因为这个标题,我都不想测试GLM4.1VThinking了,感觉就很夸张,并且一猜就是干掉了Qwen2.5VL72B。PS:我Qwen天天被吊打!!不过,有个好友非要让我测一下,因为他告诉我,我之前的表格识别,这个9B模型好像可以了。不测不知道,一测吓一跳,没想到真出来了...
2025-07-11 07:48:06 1699浏览 0点赞 0回复 0收藏
大家好,今天给大家分享一个图像生成的新工作—MarryingAutoregressiveTransformerandDiffusionwithMultiReferenceAutoregression,后面我们简称TransDiff。首先,TransDiff是目前最简洁的、将ARTransformer与Diffusion结合用于图像生成方法。TransDiff将离散输入(如类别、文本等)、连续输入(图像等)经过ARTransformer编码为图像语义表征,而后将表征通过一个较小的DiffusionDeocder解码为图片。其次,我们提出了一种新的自...
2025-06-27 00:55:44 1108浏览 0点赞 0回复 0收藏
上周五,Qwen团队又开源了Embedding模型,真是人民需要什么,它开源什么呀!现在好了,文本、多模态、embedding都齐了,别人没得玩了!上周朋友就问,作为Qwen课代表的我,咋没分享Qwen3Embedding,哈哈哈哈!这不就来了嘛,主要是前两天我还在测试。Embedding模型的测试,并不像LLM那样直观,给了问题之后直接看答案就可以分辨出好坏,Embedding模型还是要测试在某个数据集下整体得召回率。虽然这次Qwen开源了3个尺寸的模型,0...
2025-06-13 07:17:37 3344浏览 0点赞 0回复 0收藏
自适应推理模型的核心就是让模型自己根据用户问题的来判断是否进行推理预测。Arm存在三种格式:直接回答、短CoT或代码、长CoT,同时引入AdaGRPO解决传统GRPO中的格式崩溃问题。除了自适应模式,Arm还支持另外两种模式;指令引导模式,用户明确强制选择某一种指定推理格式共识引导模式,聚合直接回答、短CoT或代码三种格式的输出,当答案一致时,直接返回,否则认为任务较复杂,切换到LongCoT推理模式。模型的训练分为两个阶段,...
2025-06-03 06:41:20 1247浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。是的,没错,Qwen团队又开源了,这次是偏好模型WorldPM。偏好模型,就是也可以理解为奖励模型,在强化学习中用来打分的那个模型!HF:https:huggingface.cocollectionsQwenworldpm6826f363e9c62f97a0b437e6Paper:https:arxiv.orgabs2505.10527WorldPM,是在1500万条训练样本上进行偏好训练,模型规模从1.5B到72B,同时发现偏好模型遵循与语言模型类似的缩放规律。模型的训练数据来自多个公共论坛,包括St...
2025-05-20 06:41:02 1671浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。从Llama4陨落之后,国内开源模型是世界第一,谁赞成,谁反对!反对无效!应该也没人反对吧。模型尺寸、榜单指标、首个混合推理模型,这篇就不重复介绍了,去看我上一篇内容吧。这篇主要是针对Qwen3实测,看看真实测试效果到底如何!测试可以在两个地方都可以https:huggingface.cospacesQwenQwen3Demo或者https:chat.qwen.ai主要测试think和nothink两种情况。正式测试开始。常规测试Qwen32...
2025-05-07 06:53:37 2919浏览 0点赞 0回复 1收藏
下面是我前段时间跟一位群友的对话:群友:我最近有都需要进行模型微调,但是每个任务模型调完之后都对单一任务有明显提高,但如果合在一起训练的话,效果又达不到最佳。所以在使用阶段,部署了多个模型,但是显卡资源真的吃不消,有什么好的解决办法吗?我:你是Lora微调,还是全量参数微调的。群友:Lora微调,全量参数微调,也没那么多训练资源。我:你既然是Lora微调,那么你在部署的时候,可以只部署一个底座模型,然后多...
2025-04-22 07:18:29 1861浏览 0点赞 0回复 0收藏
MetaAI发布了Llama4模型,终于来啦!开源社区也是等了很久。本次共两系列模型Scout和Maverick模型,两个模型均为MoE架构模型,DeepSeek得含金量还在提高,哈哈哈!榜单效果反正是杠杠滴。HF模型路径:https:huggingface.cocollectionsmetallamallama467f0c30d9fe03840bc9d0164模型的总体信息如上图所示,模型MoE架构中,无论是Scout还是Maverick,激活的路由专家数据均为1,有点奇怪,之前MoE架构一般激活路由专家数据都是2或更...
2025-04-09 07:07:26 2377浏览 0点赞 0回复 0收藏
国内Qwen是汪峰,国外Google是汪峰,昨天Google更新,放出新模型Gemini2.5Pro,凌晨OpenAI更新GPT4o,上新图像生成功能,难受住了。GPT4o没测,但是网上的效果也太好了吧,倒影啥的都太自然了吧。。这篇主要测试Gemini2.5Pro的能力,整体测试通过Google的AIStudio上测试,每天免费50次,正常使用够了,爽玩还是不够的。https:aistudio.google.comGemini2.5Pro在Benchmark上效果还是很好的,甚至在lmsys的对战榜单上,现在是第一...
2025-03-27 07:57:17 3490浏览 0点赞 0回复 0收藏
今早看到了百度文心大模型4.5和X1可以免费使用啦!之前说4月1号免费,这提前半个月,估计是最近大模型厂商一直都在开源,压力太大了!话说回来,2025年是真卷,几乎每一周都有新东西,也都有爆款。之前我是随机更,现在都变成日更啦!文心4.5是个多模态大模型,可以对文字、图片、音频、视频等内容进行综合理解。文心X1是深度思考的推理大模型,但支持多模态和工具使用,具有更强的理解、规划、反思、进化的能力。从榜单上看效...
2025-03-17 01:11:39 3600浏览 0点赞 0回复 0收藏
今天给大家带来一篇探讨大模型预训练与微调之间关系的文章,主要通过微调预训练阶段各个checkpoint,来发现预训练本身或对下游微调有哪些影响。大模型在预训练过程中的性能如何变化?更多步数的预训练对下游微调有何影响?大模型微调学到了什么,又忘记了什么?Paper:https:arxiv.orgabs2408.06663由于目前开源模型中,开放全量checkpoints的模型较少,并且实验成本较大,以下分析结果主要基于OLMo1B模型(同时训练细节、预训练...
2025-03-05 10:55:09 2810浏览 0点赞 0回复 0收藏
言简意赅,发现月之暗面开源MoE模型,总参数量15.29B,激活参数2.24B,使用Muon优化器,在5.7TTokens的训练数据下,拿到了很好的效果。Github:https:github.comMoonshotAIMoonlightHF:https:huggingface.comoonshotaiMoonlight16BA3BPaper:https:github.comMoonshotAIMoonlightblobmasterMoonlight.pdf效果如下:比较Muon和Adam的扩展定律实验,发现Muon的样本效率比Adam高2倍。Muon优化器原理如下:同时,Moonlight16BA3B的...
2025-02-25 12:49:10 3383浏览 0点赞 0回复 0收藏
最近DeepSeekR1蒸馏太火了,昨天在群里跟群友们问白嫖R1接口的事情,想着多点搞免费额度蒸馏一波满血版DeepSeekR1,来做做试验。结果一个小伙伴,跟我讲,他们(无问芯穹)的满血版DeepSeekR1API是免费调用的,不仅如此,还有DeepSeekV3、Deepseek蒸馏版本模型R1DistillQwen32b也是免费的。当然,现在DeepSeek流量真的爆炸,公众号标题带DeepSeek流量都会更高一些,算是现象级模型了。在这里为春节期间同样努力奋斗,放出新模型...
2025-02-17 07:26:05 3706浏览 0点赞 0回复 0收藏
今天看到vLLM的朋友圈发布了DeepSeekR1的PP支持,立刻开始我的捣鼓之旅,假如我训练的超大MoE上线了,也得做好技术准备工作是不嘛。把踩坑经验给大家分享一下,希望能够相比于官方文档更白话一点。DistributedInferenceandServing:https:docs.vllm.aienlatestservingdistributedserving.htmlrunningvllmonmultiplenodes知乎游凯超说一定要让整个过程变得丝滑无比,我俩配合做了几个验证,现在应该只需要Step0和Step3就可以run起...
2025-02-06 15:33:59 8768浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。就在今晚,Kimi发布了最新模型k1.5,先来看榜单效果,简直爆炸。在长推理上,k1.5在数学能力上,无论是纯文本还是视觉多模态上,都远超openai的o1模型;在codeforces与其持平,LiveCode上略差,但相比于QVQ和QWQ有较大的优势。在短推理上,k1.5的数学能力真实遥遥领先,无论是gpt4o还是claude3.5sonnet都远不如k1.5,尤其是在AIME榜单上,k1.5有60.8,而最高的deepseekv3只有39.2,堪称断层式碾压。这个应...
2025-01-22 13:33:53 4432浏览 0点赞 0回复 0收藏