【LLM合集】让AI别'杠精式'思考!三招让大模型能力翻倍

发布于 2025-6-18 06:58
浏览
0收藏

1. Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

【LLM合集】让AI别'杠精式'思考!三招让大模型能力翻倍-AI.x社区

现在的大模型确实很厉害,尤其是在处理复杂任务时。最近像 OpenAI 的 o1 和 DeepSeek-R1 这些大推理模型,通过监督微调加强化学习的方法,把那种一步一步的推理能力(也就是 CoT)提升了不少。不过这里有个矛盾点 —— 虽然更长的推理链条能提高准确率,但也会因为输出太啰嗦、重复而增加计算成本,我们管这个叫 "过度思考" 问题。

最近我们团队做了个系统的研究综述,把现有的高效推理方法分成了三类:第一类是从模型本身入手,要么把大模型优化得更简洁,要么直接训练轻量级的推理模型;第二类是动态控制推理过程,比如在中间步骤就提前终止或者精简输出;第三类则是根据输入问题的难度,智能调整提示策略来提高效率。

论文: ​​https://arxiv.org/pdf/2503.16419​

2. One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

【LLM合集】让AI别'杠精式'思考!三招让大模型能力翻倍-AI.x社区

扩散模型虽然能生成超清晰的图像,但跑起来实在太费显卡了。现有的加速方法里,像 SinSR 这种虽然快,但生成的细节总感觉有点假;而 OSEDiff 虽然更真实,可有时候会莫名其妙多出一些不存在的结构。

为了解决这个问题,我们团队搞了个叫 RSD 的新方法。简单来说就是让一个小模型(学生)去模仿大模型(老师)的输出。不过不是直接复制结果,而是训练它生成一种特殊的残差信号,这样小模型一步就能恢复出高清图,效果还比老师模型更好。

跟之前的 SinSR 比起来,RSD 的蒸馏方式明显更聪明。在和其他基于扩散的 SOTA 方法对比时,我们的模型不仅生成的图像更贴近原始低清图,而且用的显存和参数都更少。我们在 RealSR、ImageNet 这些常见数据集上做了测试,结果都挺让人惊喜的,尤其是在真实场景的图片上表现特别稳定。

论文: ​​https://arxiv.org/pdf/2503.13358​

3. Unleashing Vecset Diffusion Model for Fast Shape Generation

【LLM合集】让AI别'杠精式'思考!三招让大模型能力翻倍-AI.x社区

最近 3D 形状生成领域挺热闹的,尤其是 VDM 模型出来后,大家用原生 3D 扩散技术能生成特别精细的模型。不过这技术有个大问题 —— 生成速度太慢了。虽然现在有些方法能提高分辨率,但 VDM 在快速生成这块还是不太灵光。这主要是因为扩散采样本身就慢,再加上 VAE 解码效率低,这两个地方之前都没被好好优化过。

我们团队这次搞了个叫 FlashVDM 的框架,专门解决这两个卡点。对于扩散采样部分,我们用了新的渐进式流蒸馏技术,让模型只需要 5 步就能生成质量差不多的结果。而 VAE 部分更绝,我们设计了一个轻量级的 vecset 解码器,用自适应 KV 选择和层次化体积解码,就像把地图分成不同区域快速读取一样,大幅减少了计算量。

把这套方案用在 Hunyuan3D-2 上,得到的 Hunyuan3D-2 Turbo 效果特别明显。测试显示,重建任务的速度提升了 45 倍,生成任务也快了 32 倍,而且质量还能和顶尖方法掰手腕。代码和模型都开源了,大家感兴趣可以去 GitHub 看看。

论文: ​​https://arxiv.org/pdf/2503.16302​

4. Scale-wise Distillation of Diffusion Models

【LLM合集】让AI别'杠精式'思考!三招让大模型能力翻倍-AI.x社区

最近我们团队开发了一个叫 SwD 的新框架,专门用来优化扩散模型的生成效率。简单来说,就是让模型像搭积木一样,先从低分辨率图像开始生成,然后每一步慢慢放大细节。这样做既能保持生成质量,又能省不少计算资源。

这个想法其实来自一个挺有意思的发现 —— 扩散模型的生成过程和隐式谱自回归有点像。我们就想,能不能把现有的蒸馏方法和这种分阶段生成结合起来呢?于是 SwD 诞生了,它不仅能兼容现有的分布匹配技术,还加了个新的补丁损失函数,就像拼图游戏一样要求局部区域更精准地匹配。

我们在文本生成图像的模型上做了测试,结果挺惊喜的。用 SwD 之后,生成速度接近直接生成两次高清图,但效果却比同类方法好很多。不管是用自动指标评测,还是让人来打分,SwD 都表现得更出色。这说明我们的方法在保证速度的同时,还能提升生成质量。

论文: ​​​https://arxiv.org/pdf/2503.16397​

本文转载自​AI-PaperDaily​,作者:AI-PaperDaily

收藏
回复
举报
回复
相关推荐