公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

NLP工作站

LV.4

AIGC前沿知识分享&落地经验总结

帖子 56

声望 455

关注 0

粉丝 0

社区头条作者热门内容榜上榜作者

私信

关注

主帖 56

回帖

美团龙猫再开源LongCat-Flash-Thinking模型，细节满满！

昨天刷到美团龙猫又开源新模型了，LongCatFlashThinking，这次是思考模型。8月底，美团先开了LongCat模型，我也是第一时间评测了！这次LongCatFlashThinking的技术报告依旧干货满满，很多有意思的东西，就比如各领域数据分开进行RL，然后融合，我之前只看到在SFT上会这么做，没想到RL也行咱们依旧老规矩先看细节，再评测。LongCatFlashThinking，也是MoE模型，模型结构跟LongCat一样，依旧是零计算专家等等，相关介绍看我上一篇...

2025-09-24 07:07:05 1870浏览 0点赞 0回复 0收藏

聊一下Qwen3-Next-80B-A3B实测感受！附测试用例！

Qwen又开源了，身为守护官的我，必须带来一手实测。这次开源的模型是Qwen3Next80BA3B模型，依旧MoE，80B总参数，激活3B，与以往不同的是，这次是混合注意力架构。Next意味着Qwen即将进入下一代，俊旸也说了，这是下一代的preview版本。细数一下，Qwen2.5系列应该是Dense的神，Qwen3系列应该是Qwen稳定迈向MoE架构，而Next系列，就是开启Qwen混合架构的第一步，像MiniMaxM1、HunYuan早期版本都是混合注意力架构，也就是线性注意...

2025-09-24 07:05:49 2022浏览 0点赞 0回复 0收藏

Seedream 4.0 实测：一致性媲美Nano Banana，附企业级应用案例

社区头条

前两天，字节发布了Seedream4.0模型，跟NanoBanana一样，从生成到编辑实现一站式创作，有很强的一致性和可控性，相较于之前版本有极大程度的提高。没想到，刚写完NanoBanana，就迎来了我第二篇生图文章，哈哈哈哈。体验之后，觉得多图融合、参考生图还是复杂的图像编辑效果都很好，同时在NanoBanana不擅长的中文显示上也贼强。Seedream4.0模型在豆包、即梦、火山方舟上都能使用，我是直接在火山方舟的体验中心测试，https:e...

2025-09-12 07:18:08 7363浏览 0点赞 0回复 0收藏

最近吃的太好了，要不然DeepSeek V3.1不能被喷成这样！附V3.1的一些细节

也许是最近开源模型太多（Qwen3、K2、Step3、GLM4.5等等），也许是大家等R2时间太久，DeepSeek开源V3.1模型，竟然能被狂喷，这点我是没有想到的。如果说是APP、客户端，那没办法，毕竟DS的显卡资源有限，我反正能理解。API的话，就真不至于，因为DeepSeekV3.1模型本身就开源，完全可以自己部署之前版本，或者用火山引擎、阿里百炼、硅基流动等等等云模型厂商的老版本API。然后从昨晚到今天，也是看了不少帖子，褒贬不一。跟不少...

2025-08-29 07:11:32 2727浏览 0点赞 0回复 0收藏

智谱开源的GLM4.5V到底行不行？掏出祖传多模态理解测试！

7月就很卷了，见国内开源大模型整理，8月没想到依然卷。从一开始的腾讯开源小模型，到Qwen开源Image模型，再到小红书dots.vlm1、面壁MiniCPMV4.0，然后今天智谱又发布了GLM4.5V。对，就这样卷，利好开源社区、利好我们这些开发者！那么今天来看看这个GLM4.5V模型到底如何？先上测试，再聊模型细节！测试除了OCR识别、表格识别、理解计算、网页复刻、报告分享、目标识别、目标对比、数学做题、图片排序、空间逻辑、空间变换、色...

2025-08-18 06:53:00 3053浏览 0点赞 0回复 0收藏

细节决定成败！深耕医疗的Baichuan-M2用了哪些黑科技

实话实说，本来没有这篇稿子，我并没有太关注BaichuanM2这个模型，因为最近开源社区太火爆了，各家都在卷。7月份见开源模型盘点，而8月刚过半，已经有QwenImage、dots.vlm1、MiniCPMV4.0、GLM4.5V等等等。那么，BaichuanM2这个垂域模型就显得不那么惊艳了（很多人都更关心通用模型），还有百川上次开源M1已经是五六个月前了，当时在群里发AI日报，一众小伙伴都惊讶百川还在发模型。PS：不过我群里有个内应，说他们项目挺多的...

2025-08-18 06:49:31 1143浏览 0点赞 0回复 0收藏

腾讯HunYuan跟阿里Qwen在开源上干起来了？

腾讯HunYuan又开源了4个端侧小模型0.5B、1.8B、4B、7B，共4个尺寸，主打轻量端侧。Hunyuan0.5B：https:huggingface.cotencentHunyuan0.5BInstructHunyuan1.8B：https:huggingface.cotencentHunyuan1.8BInstructHunyuan4B：https:huggingface.cotencentHunyuan4BInstructHunyuan7B：https:huggingface.cotencentHunyuan7BInstructHunYuan也开始走全系列开源的路子了，是不是跟Qwen干上了呀！我是真没想到，腾讯也开始大规模开源...

2025-08-05 07:19:34 2874浏览 0点赞 0回复 0收藏

混元A13B实测出炉，腾讯补上开源MoE模型的“尺寸断档”

社区头条

腾讯前两天开源了混元A13B模型，A13B模型是一个MoE模型，总参数80B，激活参数13B，同时支持快慢思考两种模式切换。Paper：https:github.comTencentHunyuanHunyuanA13BblobmainreportHunyuanA13BTechnicalReport.pdfHF：https:huggingface.cocollectionstencenthunyuana13b685ec38e5b46321e3ea7c4be腾讯之前开源3D生成模型关注度很高，文本大模型上一次开源已经是5个月前的HunYuan7B和HunYuanLarge模型了。由于Qwen3的系列模型没...

2025-07-11 07:56:12 3007浏览 0点赞 0回复 0收藏

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！

大家好，我是刘聪NLP。最近开源社区好起来了，先是华为、百度、腾讯，相继开源模型，然后昨天智谱又开源了模型，GLM4.1VThinking，又是被刷屏朋友圈了！但是说实话，一开始因为这个标题，我都不想测试GLM4.1VThinking了，感觉就很夸张，并且一猜就是干掉了Qwen2.5VL72B。PS：我Qwen天天被吊打！！不过，有个好友非要让我测一下，因为他告诉我，我之前的表格识别，这个9B模型好像可以了。不测不知道，一测吓一跳，没想到真出来了...

2025-07-11 07:48:06 2277浏览 0点赞 0回复 0收藏

TransDiff--最简洁的AR Transformer + Diffusion图像生成方法

大家好，今天给大家分享一个图像生成的新工作—MarryingAutoregressiveTransformerandDiffusionwithMultiReferenceAutoregression，后面我们简称TransDiff。首先，TransDiff是目前最简洁的、将ARTransformer与Diffusion结合用于图像生成方法。TransDiff将离散输入（如类别、文本等）、连续输入（图像等）经过ARTransformer编码为图像语义表征，而后将表征通过一个较小的DiffusionDeocder解码为图片。其次，我们提出了一种新的自...

2025-06-27 00:55:44 1587浏览 0点赞 0回复 0收藏

迟来！解读Qwen开源的Embedding模型中的细节！附实测结果！

上周五，Qwen团队又开源了Embedding模型，真是人民需要什么，它开源什么呀！现在好了，文本、多模态、embedding都齐了，别人没得玩了！上周朋友就问，作为Qwen课代表的我，咋没分享Qwen3Embedding，哈哈哈哈！这不就来了嘛，主要是前两天我还在测试。Embedding模型的测试，并不像LLM那样直观，给了问题之后直接看答案就可以分辨出好坏，Embedding模型还是要测试在某个数据集下整体得召回率。虽然这次Qwen开源了3个尺寸的模型，0...

2025-06-13 07:17:37 4346浏览 0点赞 0回复 0收藏

推理模型的必经之路-自适应推理

自适应推理模型的核心就是让模型自己根据用户问题的来判断是否进行推理预测。Arm存在三种格式：直接回答、短CoT或代码、长CoT，同时引入AdaGRPO解决传统GRPO中的格式崩溃问题。除了自适应模式，Arm还支持另外两种模式；指令引导模式，用户明确强制选择某一种指定推理格式共识引导模式，聚合直接回答、短CoT或代码三种格式的输出，当答案一致时，直接返回，否则认为任务较复杂，切换到LongCoT推理模式。模型的训练分为两个阶段，...

2025-06-03 06:41:20 1577浏览 0点赞 0回复 0收藏

通义千问又开源啦！WorldPM-世界偏好模型来了！

大家好，我是刘聪NLP。是的，没错，Qwen团队又开源了，这次是偏好模型WorldPM。偏好模型，就是也可以理解为奖励模型，在强化学习中用来打分的那个模型！HF：https:huggingface.cocollectionsQwenworldpm6826f363e9c62f97a0b437e6Paper：https:arxiv.orgabs2505.10527WorldPM，是在1500万条训练样本上进行偏好训练，模型规模从1.5B到72B，同时发现偏好模型遵循与语言模型类似的缩放规律。模型的训练数据来自多个公共论坛，包括St...

2025-05-20 06:41:02 2143浏览 0点赞 0回复 0收藏

Qwen3 一手肝帝实测！附示例，涉及推理、创作、数学和代码！

大家好，我是刘聪NLP。从Llama4陨落之后，国内开源模型是世界第一，谁赞成，谁反对！反对无效！应该也没人反对吧。模型尺寸、榜单指标、首个混合推理模型，这篇就不重复介绍了，去看我上一篇内容吧。这篇主要是针对Qwen3实测，看看真实测试效果到底如何！测试可以在两个地方都可以https:huggingface.cospacesQwenQwen3Demo或者https:chat.qwen.ai主要测试think和nothink两种情况。正式测试开始。常规测试Qwen32...

2025-05-07 06:53:37 3458浏览 0点赞 0回复 1收藏

LLM实战系列 | 大模型的多Lora部署，将显存节省到极致

下面是我前段时间跟一位群友的对话：群友：我最近有都需要进行模型微调，但是每个任务模型调完之后都对单一任务有明显提高，但如果合在一起训练的话，效果又达不到最佳。所以在使用阶段，部署了多个模型，但是显卡资源真的吃不消，有什么好的解决办法吗？我：你是Lora微调，还是全量参数微调的。群友：Lora微调，全量参数微调，也没那么多训练资源。我：你既然是Lora微调，那么你在部署的时候，可以只部署一个底座模型，然后多...

2025-04-22 07:18:29 2272浏览 0点赞 0回复 0收藏

Llama4 模型细节 & 效果实测

MetaAI发布了Llama4模型，终于来啦！开源社区也是等了很久。本次共两系列模型Scout和Maverick模型，两个模型均为MoE架构模型，DeepSeek得含金量还在提高，哈哈哈！榜单效果反正是杠杠滴。HF模型路径：https:huggingface.cocollectionsmetallamallama467f0c30d9fe03840bc9d0164模型的总体信息如上图所示，模型MoE架构中，无论是Scout还是Maverick，激活的路由专家数据均为1，有点奇怪，之前MoE架构一般激活路由专家数据都是2或更...

2025-04-09 07:07:26 2974浏览 0点赞 0回复 0收藏

Gemini2.5 Pro测试，代码能力飙升，但多模态表格解析依旧不理想

国内Qwen是汪峰，国外Google是汪峰，昨天Google更新，放出新模型Gemini2.5Pro，凌晨OpenAI更新GPT4o，上新图像生成功能，难受住了。GPT4o没测，但是网上的效果也太好了吧，倒影啥的都太自然了吧。。这篇主要测试Gemini2.5Pro的能力，整体测试通过Google的AIStudio上测试，每天免费50次，正常使用够了，爽玩还是不够的。https:aistudio.google.comGemini2.5Pro在Benchmark上效果还是很好的，甚至在lmsys的对战榜单上，现在是第一...

2025-03-27 07:57:17 4038浏览 0点赞 0回复 0收藏

文心一言4.5和X1免费，马上安排实测，来看看效果如何！

今早看到了百度文心大模型4.5和X1可以免费使用啦！之前说4月1号免费，这提前半个月，估计是最近大模型厂商一直都在开源，压力太大了！话说回来，2025年是真卷，几乎每一周都有新东西，也都有爆款。之前我是随机更，现在都变成日更啦！文心4.5是个多模态大模型，可以对文字、图片、音频、视频等内容进行综合理解。文心X1是深度思考的推理大模型，但支持多模态和工具使用，具有更强的理解、规划、反思、进化的能力。从榜单上看效...

2025-03-17 01:11:39 4057浏览 0点赞 0回复 0收藏

探讨大模型预训练与微调之间的相互作用

今天给大家带来一篇探讨大模型预训练与微调之间关系的文章，主要通过微调预训练阶段各个checkpoint，来发现预训练本身或对下游微调有哪些影响。大模型在预训练过程中的性能如何变化？更多步数的预训练对下游微调有何影响？大模型微调学到了什么，又忘记了什么？Paper:https:arxiv.orgabs2408.06663由于目前开源模型中，开放全量checkpoints的模型较少，并且实验成本较大，以下分析结果主要基于OLMo1B模型（同时训练细节、预训练...

2025-03-05 10:55:09 3226浏览 0点赞 0回复 0收藏

来了！Kimi开源Moonlight-16B-A3B的MoE模型！！

言简意赅，发现月之暗面开源MoE模型，总参数量15.29B，激活参数2.24B，使用Muon优化器，在5.7TTokens的训练数据下，拿到了很好的效果。Github：https:github.comMoonshotAIMoonlightHF：https:huggingface.comoonshotaiMoonlight16BA3BPaper：https:github.comMoonshotAIMoonlightblobmasterMoonlight.pdf效果如下：比较Muon和Adam的扩展定律实验，发现Muon的样本效率比Adam高2倍。Muon优化器原理如下：同时，Moonlight16BA3B的...

2025-02-25 12:49:10 3755浏览 0点赞 0回复 0收藏

获得成就

已积累 4.7w 人气

获得 0 个点赞

获得 1 次收藏