【LLM合集】让AI别'杠精式'思考！三招让大模型能力翻倍

发布于 2025-6-18 06:58

浏览

0收藏

1. Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

【LLM合集】让AI别'杠精式'思考！三招让大模型能力翻倍-AI.x社区

现在的大模型确实很厉害，尤其是在处理复杂任务时。最近像 OpenAI 的 o1 和 DeepSeek-R1 这些大推理模型，通过监督微调加强化学习的方法，把那种一步一步的推理能力（也就是 CoT）提升了不少。不过这里有个矛盾点 —— 虽然更长的推理链条能提高准确率，但也会因为输出太啰嗦、重复而增加计算成本，我们管这个叫 "过度思考" 问题。

最近我们团队做了个系统的研究综述，把现有的高效推理方法分成了三类：第一类是从模型本身入手，要么把大模型优化得更简洁，要么直接训练轻量级的推理模型；第二类是动态控制推理过程，比如在中间步骤就提前终止或者精简输出；第三类则是根据输入问题的难度，智能调整提示策略来提高效率。

论文: https://arxiv.org/pdf/2503.16419

2. One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

【LLM合集】让AI别'杠精式'思考！三招让大模型能力翻倍-AI.x社区

扩散模型虽然能生成超清晰的图像，但跑起来实在太费显卡了。现有的加速方法里，像 SinSR 这种虽然快，但生成的细节总感觉有点假；而 OSEDiff 虽然更真实，可有时候会莫名其妙多出一些不存在的结构。

为了解决这个问题，我们团队搞了个叫 RSD 的新方法。简单来说就是让一个小模型（学生）去模仿大模型（老师）的输出。不过不是直接复制结果，而是训练它生成一种特殊的残差信号，这样小模型一步就能恢复出高清图，效果还比老师模型更好。

跟之前的 SinSR 比起来，RSD 的蒸馏方式明显更聪明。在和其他基于扩散的 SOTA 方法对比时，我们的模型不仅生成的图像更贴近原始低清图，而且用的显存和参数都更少。我们在 RealSR、ImageNet 这些常见数据集上做了测试，结果都挺让人惊喜的，尤其是在真实场景的图片上表现特别稳定。

论文: https://arxiv.org/pdf/2503.13358

3. Unleashing Vecset Diffusion Model for Fast Shape Generation

【LLM合集】让AI别'杠精式'思考！三招让大模型能力翻倍-AI.x社区

最近 3D 形状生成领域挺热闹的，尤其是 VDM 模型出来后，大家用原生 3D 扩散技术能生成特别精细的模型。不过这技术有个大问题 —— 生成速度太慢了。虽然现在有些方法能提高分辨率，但 VDM 在快速生成这块还是不太灵光。这主要是因为扩散采样本身就慢，再加上 VAE 解码效率低，这两个地方之前都没被好好优化过。

我们团队这次搞了个叫 FlashVDM 的框架，专门解决这两个卡点。对于扩散采样部分，我们用了新的渐进式流蒸馏技术，让模型只需要 5 步就能生成质量差不多的结果。而 VAE 部分更绝，我们设计了一个轻量级的 vecset 解码器，用自适应 KV 选择和层次化体积解码，就像把地图分成不同区域快速读取一样，大幅减少了计算量。

把这套方案用在 Hunyuan3D-2 上，得到的 Hunyuan3D-2 Turbo 效果特别明显。测试显示，重建任务的速度提升了 45 倍，生成任务也快了 32 倍，而且质量还能和顶尖方法掰手腕。代码和模型都开源了，大家感兴趣可以去 GitHub 看看。

论文: https://arxiv.org/pdf/2503.16302