企业培训

鸿蒙开发者社区

信创认证

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

轻薄滴假象

LV.6

这个用户很懒，还没有个人简介

帖子 151

声望 1112

关注 0

粉丝 0

社区头条作者

私信

关注

主帖 151

回帖

DeepSeek一口气开源3个项目，还有梁文锋亲自参与，昨晚API大降价

精华

DeepSeek的开源周已经进行到了第四天（前三天报道见文末「相关阅读」）。今天这家公司一口气发布了两个工具和一个数据集：DualPipe、EPLB以及来自训练和推理框架的分析数据。DeepSeek表示，DualPipe曾在V3R1的训练中使用，是一种用于计算通信重叠的双向pipeline并行算法。EPLB是为V3R1打造的专家并行负载均衡器。而公布训练和推理框架的分析数据是为了帮助社区更好地理解通信计算重叠策略和底层实现细节。DualPipe链接：https:g...

2025-02-27 12:40:06 2530浏览 0点赞 0回复 0收藏

全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍

精华

用AI提高AI的效率，它们就能变得像人类大脑一样高效？我们的大脑只用了20瓦的能量就能完成复杂思考，而现代AI系统却需要成排的高功率GPU和惊人的电力消耗。这种差距如何缩小？日本AI初创公司SakanaAI团队提出了一个大胆的愿景：利用AI本身来优化AI。他们开发的「AICUDA工程师」是这一理念的具体实践。「AICUDA工程师」是第一个用于全自动CUDA内核发现和优化的综合智能体框架。这种方法不仅开创性地将进化计算与大型语言模型相结...

2025-02-21 13:20:31 1945浏览 0点赞 0回复 0收藏

苹果也在蒸馏大模型，给出了蒸馏Scaling Laws

众所周知，知识蒸馏技术当前正被大模型领域广泛使用，它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度，与此同时还能对知识域进行集成和迁移。近日，苹果研究人员提出了一种蒸馏扩展定律（DistillationScalingLaws），基于计算预算及其在学生和教师之间的分配，我们现在开始可以估算蒸馏模型的性能了。图1.蒸馏扩展定律的外推。蒸馏扩展定律适用于一系列损失为LT的教师的弱学生模型（LS>2.3）。实线...

2025-02-14 12:34:15 2035浏览 0点赞 0回复 0收藏

啊！DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法？

精华

我们都知道，普通大模型的数学能力并不好，甚至可能会搞不清楚9.8和9.11哪个大。但随着o1、o3以及DeepSeekR1等推理模型的到来，情况正在发生变化。比如DeepSeekR1在竞赛数学基准AIME2024上达到了79.8%的准确度，成就了自己头号开源推理模型的地位。而根据OpenAI发布的数据，o3mini(high)在AIME2024上的准确度更是达到了87.3%，预计o3满血版的成绩还会更好。但即便如此，这些强大的推理模型却依然常常在一类看起来相当简单的数学...

2025-02-14 12:28:13 2182浏览 0点赞 0回复 0收藏

DeepSeek R1不编程就能生成GPU内核，比熟练工程师好，惊到了英伟达

DeepSeek引爆AI社区后，人们都在尝试本地部署和各领域应用，在新模型基础上持续改进的方向也被不断提出。与此同时，英伟达却在尝试用DeepSeek给大模型pipeline本身搞自动化。本周三，英伟达在博客中介绍了利用DeepSeekR1和推理时扩展技术来自动生成优化GPU内核的最新研究成果，效果异常的好。对此有人评价道：难不成英伟达在自拆护城河？也有人已经开始担心自己的工作会不会被AI代替了。随着AI大模型规模不断扩展，能力持续进步...

2025-02-13 16:51:52 1915浏览 0点赞 0回复 0收藏

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

一、引言推理大语言模型（LLM），如OpenAI的o1系列、Google的Gemini、DeepSeek和QwenQwQ等，通过模拟人类推理过程，在多个专业领域已超越人类专家，并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习（ReinforcementLearning）和推理规模（Inferencescaling）。主流的大模型强化学习算法，如DPO、PPO、GRPO等，通常需要在完整的思维链上进行微调，需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的...

2025-02-12 15:58:36 2152浏览 0点赞 0回复 0收藏

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

本论文第一作者倪赞林是清华大学自动化系2022级直博生，师从黄高副教授，主要研究方向为高效深度学习与图像生成。他曾在ICCV、CVPR、ECCV、ICLR等国际会议上发表多篇学术论文。近年来，AIGC领域发展十分迅猛。在计算机视觉中，扩散模型已经成为一种有效且常用的模型。相反，在自然语言处理领域，内容的生成通常通过使用Transformer去生成离散的token。受到这种差异的启发，越来越多的研究（以VQGAN作为典型代表）开始探索这种基...

2024-09-19 12:23:48 2232浏览 0点赞 0回复 0收藏

视频生成控制提升几十倍，新一代轻量级ControlNeXt火了，贾佳亚团队正挑战Scaling Law

最近，又一款国产AI神器吸引了众网友和圈内研究人员的关注！它就是全新的图像和视频生成控制工具——ControlNeXt，由思谋科技创始人、港科大讲座教授贾佳亚团队开发。X平台上知名AI博主「AK」推荐从命名来看，ControlNeXt「致敬」了斯坦福大学研究团队在2023年2月提出的ControlNet，通过引入一些额外的控制信号，让预训练的图像扩散模型（如StableDiffusion）根据预设的条件调整和优化，实现线稿生成全彩图，还能做语义分割、边...

2024-08-29 13:29:28 2517浏览 0点赞 0回复 0收藏

视频生成要有自己的系统！尤洋团队历时半年开源VideoSys

精华

自今年起，OpenAI的Sora和其他基于DiT的视频生成模型在AI领域掀起了又一波浪潮。但由于起步较晚，视频生成领域的很多基础设施都还有待完善。今年2月份，新加坡国立大学尤洋团队开源的一个名为OpenDiT的项目为训练和部署DiT模型打开了新思路。这是一个易于使用、快速且内存高效的系统，专门用于提高DiT应用程序的训练和推理效率，包括文本到视频生成和文本到图像生成。项目上线后非常受欢迎，尤洋团队也一直在继续这方...

2024-08-26 09:42:58 2427浏览 0点赞 0回复 0收藏

ECCV 2024 | 引入DiT的原生3D通用框架，适用任意神经场、秒级生成

论文一作兰宇时为南洋理工大学（NTU）博士生，导师为ChenChangeLoy。本科毕业于北京邮电大学，目前主要研究兴趣为基于神经渲染的3D生成模型、3D重建与编辑。在ECCV2024中，来自南洋理工大学SLab、上海AILab以及北京大学的研究者提出了一种原生3DLDM生成框架。具体来讲，他们针对现有原生3D生成模型可拓展性差、训练效率低、泛化性较差等问题，提出一种基于3DVAE和3DDiT的两阶段通用3D生成框架LatentNeuralﬁelds3DDiffusion(LN3...

2024-08-26 09:39:52 2690浏览 0点赞 0回复 0收藏

开源AI视频工具，你只需要当导演，HuggingFace工程师打造

Sora一出，视频领域似乎已经进入了生成式AI时代。不过直到今天，我们仍然没有用上OpenAI的官方视频生成工具，等不及的人们已经开始寻找其他的方法。最近几周，一款开源的视频编辑工具Clapper引发了人们的关注。与很多科技公司提供的视频生成器不同，Clapper是一款开源AI故事可视化工具，于一年前推出原型。它的设计目的并非取代传统视频编辑器，或使用3D场景作为输入的现代AI编辑器。Clapper的理念是集合各类生成式AI技术，让任...

2024-08-13 13:30:55 2780浏览 0点赞 0回复 0收藏

AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

精华

文章的第一作者是上海交通大学博士研究生赵峻图（主页：https:juntuzhao.run），他的研究方向包括计算机视觉和人工智能赋能的生命科学。此外，他还担任上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉（主页：https:dequan.wang）。设想一下，如果让你画一幅“茶杯中的冰可乐”的图片，尽管茶杯与冰可乐的组合可能并不恰当，你仍然会很自然地先画出一个茶杯，然后画上冰块与可乐。...

2024-08-07 09:43:22 2340浏览 0点赞 0回复 0收藏

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

目前，扩散模型能够生成多样化且高质量的图像或视频。此前，视频扩散模型采用UNet架构，主要侧重于合成有限时长（通常约为两秒）的视频，并且分辨率和纵横比受到固定限制。Sora的出现打破了这一限制，其采用DiffusionTransformer（DiT）架构，不仅擅长制作10到60秒的高质量视频，而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。可以说Sora是DiT架构最有利的证明，然而，基于Transformer的扩散模型...

2024-08-05 09:13:53 3077浏览 0点赞 0回复 0收藏

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

精华

作者介绍：宋亦仁：新加坡国立大学ShowLab博士研究生，主要研究方向包括图像和视频生成，AI安全性。黄施捷：新加坡国立大学硕士二年级学生，目前在TiamatAI任算法工程师实习生，主要研究方向是视觉生成。目前在寻找2025fall博士入学机会。最近，lvmin带来了最新模型PaintsUNDO。这款AI生成工具可以根据图片还原整个绘画过程，整个AIGC社区都为之震撼。PaintsUNDO的演示demo。早在1个月前，NUS，SJTU，Tiamat等机构联合已经发布...

2024-07-30 11:38:25 2748浏览 0点赞 0回复 0收藏

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

精华

刚刚，大家期待已久的Llama3.1官方正式发布了！Meta官方发出了「开源引领新时代」的声音。在官方博客中，Meta表示：「直到今天，开源大语言模型在功能和性能方面大多落后于封闭模型。现在，我们正在迎来一个开源引领的新时代。我们公开发布MetaLlama3.1405B，我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止，所有Llama版本的总下载量已超过3亿次，我们才刚刚开始。」Meta创始人、CEO扎克伯格也亲自写了篇长文《Op...

2024-07-24 09:43:53 2492浏览 0点赞 0回复 0收藏

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

本工作由中科大认知智能全国重点实验室IEEEFellow陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域，在顶级期刊与会议上发表多篇论文，谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室，秉持理论研究与应用创新并重的理念，致力于推动人工智能领域的技术创新和发展。数据是大语言模型（LLMs）成功的基石，但并非所有数据都有益于模型学习。直觉上，高质量的样...

2024-07-23 09:45:03 2814浏览 0点赞 0回复 0收藏

无限生成视频，还能规划决策，扩散强制整合下一token预测与全序列扩散

近日，MITCSAIL的一个研究团队（一作为MIT在读博士陈博远）成功地将全序列扩散模型与下一token模型的强大能力统合到了一起，提出了一种训练和采样范式：DiffusionForcing（DF）。论文标题：DiffusionForcing:NexttokenPredictionMeetsFullSequenceDiffusion论文地址：https:arxiv.orgpdf2407.01392项目网站：https:boyuan.spacediffusionforcing代码地址：https:github.combuoyancy99diffusionforcing如下所示，扩散强制在一...

2024-07-23 09:32:25 2348浏览 0点赞 0回复 0收藏

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

本文作者蒋楠是北京大学智能学院二年级博士生，指导教师朱毅鑫教授，与北京通用人工智能研究院黄思远博士联合开展研究工作。他的研究重点是人物交互理解和数字人的动作生成，并于ICCV，CVPR和ECCV等顶会发表多篇论文。近年来，人物动作生成的研究取得了显著的进展，在众多领域，如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而，现有工作大多只关注动作本身，以场景和动作类别同时作为约束条件...

2024-07-12 08:35:54 4158浏览 0点赞 0回复 0收藏

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star

精华

ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https:github.comlllyasvielPaintsUNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘画过程。PaintsUndo先是用简单的线条勾勒出人物主...

2024-07-12 08:27:37 3127浏览 0点赞 0回复 0收藏

ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

精华

本文共同第一作者简介：张逸骅：密歇根州立大学计算机系博士三年级学生，师从SijiaLiu教授，主要研究方向是大模型的安全、隐私和效率问题。李平治：本科毕业于中国科学技术大学，将于2024Fall博士入学北卡罗来纳大学教堂山分校，师从陈天龙教授，主要研究兴趣集中在高效机器学习和AI4Science领域。洪骏远：德州大学奥斯汀分校博后，导师是ZhangyangWang教授。博士毕业于密歇根州立大学，师从JiayuZhou教授，目前主要的研究方向...

2024-07-04 10:23:10 3053浏览 0点赞 0回复 0收藏

获得成就

已积累 8.9w 人气

获得 0 个点赞

获得 3 次收藏