鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Google Gemma 3n：创新的AI边缘计算

发布于 2025-7-14 07:15

浏览

0收藏

Gemma 3n不是传统意义上的"模型优化"，而是对Transformer架构进行了系统性重构。它解决了一个根本性问题：如何在极度受限的边缘设备上实现云端级别的AI能力。

1.MatFormer

MatFormer基于Matryoshka表示学习理论，每个Transformer块都设计了嵌套子块结构，小型子模型（如套娃中的层）包含在大型模型中。

MatFormer通过在标准Transformer模型中加入嵌套的前馈网络(FFN)块结构来实现弹性推理。利用联合训练策略，在训练E4B（4B有效参数）模型时，E2B（2B有效参数）子模型同时在相同的前向传播中被优化。以及参数共享机制，通过参数共享的嵌套结构，能够在运行时选择子模型来实现弹性推理。

Google Gemma 3n：创新的AI边缘计算-AI.x社区

Mix-n-Match技术的工程实现通过调整FFN隐藏维度（8192→16384）精确控制。同时选择性跳过特定层来进一步优化性能。至于如何确认最优的配置，则是通过MMLU等基准逆向推动。

这项技术具备弹性执行的前瞻性设计，未来的实现将允许单个E4B模型根据任务复杂度和设备负载动态在E4B和E2B推理路径间切换，这种"动态智能"是传统固定架构无法实现的。

2.Per-Layer Embeddings (PLE)

PLE专为设备端部署定制，在不增加设备加速器(GPU/TPU)高速内存占用的前提下显著提升模型质量。

Google Gemma 3n：创新的AI边缘计算-AI.x社区

它进行内存分层管理策略，E2B模型虽有5B真实参数，但GPU内存占用相当于2B参数模型计算资源。大部分参数（每层嵌入）在CPU上高效加载和计算，只有核心变换器权重占用珍贵的GPU/TPU内存。

工程实现的精妙之处：这种设计充分利用了现代设备的异构计算架构，CPU负责大容量低频操作，GPU/TPU专注高频计算任务，实现了硬件资源的最优分配。

3.KV Cache Sharing

传统Transformer在处理长序列时，每层都需要独立计算和存储键值对，内存和计算开销呈二次增长。KV Cache Sharing通过层间共享策略彻底改变了这一模式。

Gemma 3n中间层的局部和全局注意力的键值直接与所有顶层共享，相比Gemma 3 4B实现2倍性能提升，显著减少长序列处理的内存占用。

这种设计特别适合音频、视频等时序数据的实时处理，解决了边缘设备处理长上下文的根本瓶颈。

4.多模态编码器

MobileNet-V5-300M在Google Pixel Edge TPU上量化后13倍加速（无量化6.5倍），相比基线SoViT减少46%参数内存优化，内存占用减少75%准。同时在视觉-语言任务上显著提高准确性。

它利用先进的蒸馏技术，从大型视觉模型中提取精华知识。专门针对移动设备的约束条件，具备高达60FPS的实时视频处理能力。

而其USM音频编码器突破了语音理解的精度。能够做到高精度采样，每160毫秒生成一个音频令牌（约6个令牌/秒）。在英语与西班牙语、法语、意大利语、葡萄牙语间翻译表现卓越。

Google Gemma 3n：创新的AI边缘计算-AI.x社区

Google Gemma 3n：创新的AI边缘计算-AI.x社区

模型在MMLU上实现了1300分突破，首个参数量<10B达到此成绩的模型。证明了架构创新胜过参数堆砌的技术路线，在资源受限环境下实现顶级智能水平。

本文转载自鲁班模锤，作者：庞德公

标签

赞

收藏

回复

举报

回复

相关推荐

TinyAgent：边缘端的功能调用

AIGC最前线 • 3700浏览 • 0回复
【创新一夏学习季】热浪升温，创新一夏，释放开发潜能

AI.x社区官方账号 • 52.9w浏览 • 39回复
我们一起聊聊Google DeepMind推出Gemma 2 技术报告

AI论文解读 • 3848浏览 • 0回复
Google发表的ShieldGemma：基于Gemma的内容安全审核模型

sbf_2000 • 4318浏览 • 0回复
边缘计算与AI：分布式智能的应用前景

jim3000 • 2999浏览 • 0回复
#AIGC创新先锋者征文大赛# 部署 LLMs 前如何计算与优化 GPU 内存需求？

Baihai_IDP • 2701浏览 • 0回复
AI界的"小而美"：Mistral AI的最新力作如何重新定义边缘计算 | 多智能体协作让大语言模型训练效率暴增

sbf_2000 • 2713浏览 • 0回复
Mistral AI 发布革命性边缘模型 Ministral 3B 和8B：性能与隐私双料俱佳

Syrupup • 2766浏览 • 0回复
AI 推理市场全景解析：战火从云端到边缘端

Syrupup • 2715浏览 • 0回复
谷歌开源Gemma-3：媲美DeepSeek，算力暴降10倍

Aceryt • 2956浏览 • 0回复
使用Unsloth微调与运行Gemma 3，速度提升1.6倍，VRAM使用减少60%

sbf_2000 • 3655浏览 • 0回复
新模型Gemma 3号称“单 GPU 模型王”，Gemma 3让AI更轻便、更高效、更触手可及！

Halo咯咯 • 3918浏览 • 0回复
Small 3.1开源发布，性能完胜Gemma 3，RTX 4090就能跑

老蛀虫 • 2849浏览 • 0回复
Google Gemma 3：性能“炸裂”还是榜单优化？

amei2000go • 2587浏览 • 0回复
当Qwen2.5-Omni遇见老师：教育创新的N种可能

风云2002_1 • 1446浏览 • 0回复
Google Gemini 2.5 Pro：AI界的“全能王”来了！

Halo咯咯 • 2001浏览 • 0回复
让哪吒用上DeepSeek，让OpenVINO加速边缘计算

Wordsworth_Jin • 1314浏览 • 0回复
Gemma 3：采用Docker Model Runner释放GenAI的潜力

51CTO内容精选 • 1963浏览 • 0回复
三大框架 Dify/RAGFlow/n8n怎么选？企业低成本落地AI的最优解

AI博物院 • 3192浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Gemini CLI：Google开源的AI智能体 23h前发布
ALPHAONE：从快到慢，还是从慢到快 2025-06-27 01:00:44发布

热门推荐

实测AntV Chart MCP 和DataV Atlas GIS MCP 1回复

从播客到带娃，看老黄、纳德拉、奥特曼这些CEO 如何在生活中使用 AI 0回复

将智能植根于运动之中——从AI模型到具身智能的下一个跃迁 0回复

我把DeepSeek微调参数扒光了，显存和性能优化的秘密都在这 0回复

Cursor 1.0 深度解析：它和 Windsurf，谁才是开发者的下一个“AI同事”？ 0回复

上一篇： ALPHAONE：从快到慢，还是从慢到快

下一篇： Gemini CLI：Google开源的AI智能体

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载