鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Dr.LLM：大语言模型中的动态层路由

发布于 2025-10-20 07:58

浏览

0收藏

论文(Dr.LLM: Dynamic Layer Routing in LLMs)介绍了一种巧妙的技术，在提高准确率的同时降低大语言模型的计算量。路由器在提高准确率的同时，每次查询可减少约3到11层的计算。论文的方法是可改装的，为冻结的大语言模型添加逐层路由器，决定跳过、执行或重复每个模块。路径通过对层编辑进行简短的蒙特卡洛树搜索进行离线监督，然后在线执行时无需搜索。在平均节省层数的同时，提高了逻辑和数学任务的准确率。

Dr.LLM：大语言模型中的动态层路由-AI.x社区

Dr.LLM：大语言模型中的动态层路由-AI.x社区

啥是Dr.LLM：附加在每一层的微型MLP路由器读取窗口化的均值池化隐藏状态，并输出三种操作之一：跳过、执行一次或重复一次。基础权重保持冻结，并且与KV缓存保持兼容。

Dr.LLM：大语言模型中的动态层路由-AI.x社区

监督机制如何工作：长度感知的MCTS探索在计算预算约束下跳过或重复层的编辑前向传播，只保留那些保持或改善金标准答案奖励的路径。然后使用焦点损失和类别重新平衡在大约4000条发现的路径上训练路由器。

Dr.LLM：大语言模型中的动态层路由-AI.x社区

主要结果：在六个主干网络上的ARC和DART任务中，路由器在提高准确率的同时，每次查询减少约3到11层。例如：LLaMA-3B-Base在DART上从11.8%提升到15.8%，平均节省4.1层。经过指令调优的8B模型在DART上也有提升，同时节省11层。域外泛化能力也很强。

Dr.LLM：大语言模型中的动态层路由-AI.x社区

这个方法为什么有效：早期层保持稳定，许多中间层被跳过，后期层有时会被重复，尤其是在更难的数学问题上，这将深度重新分配到迭代优化更有价值的地方。

Dr.LLM：大语言模型中的动态层路由-AI.x社区

冻结解码器LLM，为每个模块附加一个2层瓶颈MLP路由器。对隐藏状态使用窗口化均值池化。运行简短的离线MCTS对层编辑进行搜索，使用长度惩罚来收集改进或保持的路径。** 使用焦点损失训练路由器以处理严重的类别不平衡。在推理时，执行贪婪路由，无需搜索。可选择暴露单个标量来偏向更多跳过或更多重复，以实现更严格的成本控制。

本文转载自AI帝国，作者：无影寺

标签

动态层路由

大语言模型

已于2025-10-20 07:58:23修改

赞

收藏

回复

举报

回复

相关推荐

大模型应用与LUI（自然语言交互）落地的关键模块——语义路由实现总结

Syrupup • 7577浏览 • 0回复
【LLM】大语言模型的情感理解和共情能力

sbf_2000 • 7460浏览 • 0回复
【LLM】大语言模型在用户兴趣探索中的应用

sbf_2000 • 5470浏览 • 0回复
【LLM】对大语言模型微调优化的研究

sbf_2000 • 5058浏览 • 0回复
港科大新SOTA丨大语言模型在通用视觉定位中的能力（LLM-Optic）

AIRoobt • 6641浏览 • 0回复
这就是大语言模型！ | 一文梳理LLM中的核心概念

angel • 6070浏览 • 0回复
从零实现大模型-GraphRAG，构建LLM中的关系数据库

鱼虫子 • 4204浏览 • 0回复
加州大学伯克利分校等发表的RouteLLM：利用偏好数据学习路由大语言模型

sbf_2000 • 4768浏览 • 0回复
谷歌发布专用于个人健康的大语言模型PH-LLM

Aceryt • 3564浏览 • 0回复
大语言模型在不同自然语言处理任务中的提示工程方法综述

sbf_2000 • 4939浏览 • 0回复
大语言模型实践中的挑战与应对

sbf_2000 • 3837浏览 • 0回复
一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

玄姐聊AGI • 7727浏览 • 0回复
微软新综述：大模型RAG系统的4层境界！

探索AGI • 4707浏览 • 0回复
大语言模型中自我发现的苏格拉底方法

AIGC最前线 • 4083浏览 • 0回复
LLM-ESR@NeurIPS 2024: 大语言模型破解推荐系统的长尾难题

十一月雨_55 • 5219浏览 • 0回复
大语言模型评测中的评价指标：方法、基准和最佳实践

芝士AI吃鱼 • 1.2w浏览 • 0回复
为啥强化学习开始成为了大语言模型（LLM）的新宠？

智驻未来 • 4100浏览 • 0回复
QuantAgent：通过自我改进的大语言模型寻找交易中的圣杯

灵度智能 • 2843浏览 • 0回复
Awesome-llm-apps：大语言模型应用的宝藏仓库

鸿煊的学习笔记 • 4635浏览 • 0回复
多模态大模型中高分辨率处理trick-通过自适应路由选择模块动态选择合适粒度

大模型自然语言处理 • 1218浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

热门推荐

阿里新一代企业级多 AI 智能体开发框架 AgentScope 技术架构全解析 0回复

代码41%由AI生成！2025七大编程工具深度对比，你的选择是？ 0回复

DeepSeek 成长史：从量化投资到 AI 革命的一个 “非主流” 量化大佬的 AI 梦 0回复

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

Cursor 1.3 ~ 1.6 版本更新全梳理：终端不再挂、Agent 更聪明、上下文更可控 0回复

上一篇： Inoculation Prompting：让大模型在训练时“学坏”，测试时更听话

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载