边缘生成式AI：在三重约束下寻求可部署的智能

发布于 2025-9-15 08:00

浏览

0收藏

核心观点

核心论点：生成式AI正经历从云端向边缘的根本性范式转移。这一战略转型由对低延迟、高隐私、强可靠性及可持续性的迫切需求所驱动，而这些恰是传统云中心化模型的固有瓶颈。

然而，将AI部署于边缘的核心挑战，在于前沿大模型巨大的资源消耗与边缘设备严苛的资源限制之间的尖锐矛盾。为系统性地剖析并应对这一挑战，本文提出了一个核心分析框架——“数据-模型-计算”（Data-Model-Compute, DMC）交互三角，它定义了边缘AI必须同时克服的三大根本性约束：

1. 数据（Data）约束：处理有限、私密且分散的数据

挑战：边缘设备的数据天生具有稀缺性、高度个性化和隐私敏感性，难以进行大规模集中式训练。
路径：必须依赖联邦学习（Federated Learning）在保护隐私的前提下实现协同训练，并通过低秩适应（LoRA）等轻量化微调技术，使模型能在设备端仅凭极少量数据便实现个性化，同时避免“灾难性遗忘”。

2. 模型（Model）约束：在紧凑体积内平衡能力与风险

挑战：“瘦身”后的小模型（SLM）虽高效，但其知识储备与推理能力会随之下降，导致“幻觉”和安全偏见风险显著增加。
路径：技术重心正从单纯追求模型规模，转向模型压缩（如量化、蒸馏、剪枝）与架构创新（如专家混合模型MoE）。更重要的是，必须正视并管理“安全-效率权衡曲线”——即模型效率越高，安全风险越大的固有矛盾。未来的关键在于通过对齐蒸馏（Alignment Distillation）等技术，在同等效率下实现更高的安全性，并引入如“每瓦时幻觉数”这类新的复合评估指标。

3. 计算（Compute）约束：在极致功耗预算下实现实时推理

挑战：边缘设备面临延迟、内存、功耗和散热四重“天花板”，无法承受大模型的计算开销。
路径：必须进行软硬件协同优化，充分利用端侧芯片的专用处理单元（NPU/DSP）。模型设计需具备硬件感知能力，通过算子融合、自适应计算等技术，在严格的功耗预算内满足实时交互的严苛延迟要求。

生成式AI演进脉络

生成式AI的演进可划分为以下几个阶段：

起源（2010年代）：从基于RNN的序列到序列模型起步。
飞跃（Transformer架构）：引入注意力机制与Transformer架构，实现了从机器翻译到多模态生成（如DALL·E）的巨大进步。
规模化（GPT系列）：参数规模指数级增长，引入少样本学习、指令调优和RLHF对齐技术，以减少幻觉和偏见。
边缘化（SLM兴起）：逆向趋势涌现，通过知识蒸馏、量化和剪枝等技术压缩大模型，由此诞生了小型语言模型（SLM）。这些模型参数量在108到109级，体积为100MB到2GB，极其适合移动硬件。
能力增强（RAG）：检索增强生成（RAG）技术通过外置知识来弥补SLM的局限性，使其紧凑模型能够媲美大型LLM的效用。

这一分化预示着：前沿研究追求模型规模的极限，而边缘部署则更侧重效率与实际应用。

模型分类与部署环境

按规模分类：

小型（SLM）：<10亿参数，是边缘设备的首选。
中型：10-100亿参数，适用于高端移动设备。
大型：100-1000亿参数，主要部署在云服务器。
超大型：>1000亿参数，为云端专属。

按架构分类：

Transformer：主导语言模型。
扩散模型/GAN：主导图像和音频生成。
混合架构：融合多种模态。

部署环境：

微控制器（TinyML）
雾计算
云端

唯有小型模型（SLM）能够在边缘环境实现理想的可行性。

变革性应用场景

医疗：本地SLM实时总结病史和生成诊断建议，确保患者数据隐私不离开设备。
可穿戴/AR：智能眼镜即时描述场景，智能手表进行生物反馈，需要低延迟和NPU优化。
机器人：具身化SLM驱动规划与交互（如RT-2），实现自主导航和信任解释。
工业IoT：边缘网关生成日志摘要和异常报告，进行需求预测，其优势在于专有数据保护和快速决策。

未来展望与行动纲领

边缘生成式AI的终极形态将不再是大模型的简单压缩版，而是迈向一个全新的智能生态：

从“压缩”到“原生设计”：未来的主流将是从零开始、为特定边缘场景和硬件原生设计的专用小模型（Purpose-built SLMs）。
从“孤岛”到“协作智能”：AI将演变为分布式的多智能体系统（Multi-Agent Systems）和联邦生成（Federated Generation）网络，多个设备上的小型模型将协同工作，共同完成复杂任务。
从“数字”到“物理世界”：具身化智能（Embodied AI）将成为关键，小型化的基础模型将被嵌入机器人、自动驾驶汽车等实体中，直接与物理世界交互。

边缘生成式AI：挑战与机遇——AI部署的下一个前沿

到2030年，预计将有超过500亿台边缘设备——包括智能手机、AR（增强现实）眼镜、可穿戴设备和工业物联网（IoT）系统——实时地生成、解析并处理数据。不妨想象这样的场景：一副AR眼镜能在您漫步于异国城市时，为您解说眼前的地标；一块智能手表能根据您的生物特征数据，预测您的压力水平；家中的服务机器人能与其他设备协同，自动完成家务。这些曾经仅存于科幻领域的设想，正随着一场深刻的范式转变而成为现实：人工智能正从以云为中心，转向可在边缘部署的智能形态。

在生成式AI系统崛起的浪潮中，这一转型尤为显著。如今，以ChatGPT和DALL·E为代表的强大模型，正是当前主流范式的体现。这些模型是托管在集中式云环境中的庞大前沿模型，为数百万用户的多样化应用提供服务。这类生成式系统通过学习海量训练数据中的模式，合成出未经显式编程的新内容——无论是撰写风格自然的文本、生成栩栩如生的图像，还是谱写乐曲、编写代码。它们理解上下文、遵循指令并产出创意内容的能力，已经彻底改变了我们与技术互动的方式。

然而，随着对实时响应、隐私保护以及在有限带宽下运行的需求日益普遍，依赖云计算的AI模式其局限性也愈发凸显。边缘计算旨在应对这些挑战，它将AI处理能力直接迁移到产生数据和用户交互的数十亿台设备之上。以下几个关键因素，正在推动生成式AI向边缘端演进。首先，通过消除数据往返远程数据中心的延迟，本地化处理能提供增强现实体验和机器人系统所需的高速响应。其次，边缘部署提升了系统的可靠性，即便网络连接时断时续甚至完全中断，设备也能维持其AI能力。最重要的一点是，设备端处理能够更好地保护用户隐私，因为它将医疗记录、个人对话和生物特征数据等敏感信息保留在用户设备本地，而非上传至外部服务器。除了这些用户层面的益处，分布式的边缘推理还能带来更广泛的可持续性优势，因为它有望降低与大型集中式云基础设施相关的巨大能耗和成本。

尽管边缘部署具备这些显著优势，但重大的技术障碍依然存在。当今最先进的生成式模型属于资源密集型，其参数量通常高达数千亿，这使得它们难以在专用的数据中心之外运行。大语言模型（LLM）通常面临推理延迟高、内存占用大和功耗显著等问题，这些特性与边缘环境的资源限制形成了尖锐冲突。此外，大模型往往假设有持续的云连接，以便获取更新或外部知识，而边缘部署的设备则可能需要长时间自主运行。

这些因素引出了一个核心问题：我们应如何将大型生成模型的强大能力引入边缘端，同时平衡好效率、安全与自主性之间的关系？本文旨在探讨生成式AI向高效模型的演进路径，基于模型规模和部署特性提出一种分类方法，并审视其在医疗、可穿戴设备、机器人技术及物联网领域的实际应用。本文还将讨论“数据-模型-计算”三角交互模型中的关键挑战，引入“每瓦时幻觉”（hallucinations per watt-hour）等新型评估指标，并最终论证：可部署的智能将是释放生成式AI在日常设备中全部潜力的关键所在。

生成式AI的演进之路

要深入探讨边缘部署，理解生成式AI的演进历程至关重要。首先，这段历史揭示了模型能力日益强大、但资源消耗也愈发密集的发展趋势——这正是边缘AI所面临的核心矛盾。其次，审视那些塑造了当今先进模型的技术突破，有助于我们识别哪些创新可以被改造或重新设计，以适应资源受限的环境。最后，这种历史视角有助于我们理解该领域当前的分化现象：一方面，前沿模型在规模和能力上持续增长；另一方面，一股并行的趋势正朝着更小、更高效的模型发展，而这些模型正是为满足边缘部署的需求而生。

生成式AI已经历了多轮创新浪潮，从早期的序列到序列（sequence-to-sequence）模型，发展到如今能够遵循指令的多模态庞大模型。这段旅程始于2010年代中期，当时基于RNN（循环神经网络）的seq2seq模型被用于机器翻译等任务。通过训练一个编码器-解码器RNN（通常带有长短期记忆单元）来将输入序列映射到输出序列，Sutskever等人展示了首个端到端的神经翻译系统，该系统能够将一种语言的文本转换为另一种语言，而无需依赖独立的分析、转换和生成组件。不久之后，注意力机制的引入使得解码器能够聚焦于输入序列中的相关部分，极大地提升了序列生成的质量。这些进步共同确立了“seq2seq+注意力”架构作为自然语言处理（NLP）领域生成模型的核心范式。

一个重大的转折点是Transformer架构的问世。Vaswani等人摒弃了RNN的循环结构，转而采用自注意力机制，从而允许构建更深、更易于并行化的序列模型。Transformer将序列生成能力提升到了新的高度，并催生了第一波LLM的浪涌。如图1所示，这一时期标志着模型参数数量的指数级增长，并清晰地分化为不同规模的层级。

边缘生成式AI：在三重约束下寻求可部署的智能-AI.x社区

图1：语言模型的演进

该图描绘了语言模型规模随时间的增长情况，Y轴为对数尺度下的原始参数数量。模型被分为四个规模层级：小模型（10⁸–10⁹ 参数，绿色高亮）、中模型（10⁹–10¹⁰ 参数，橙色高亮）、大模型（10¹⁰–10¹¹ 参数，蓝色高亮）和超大模型（>10¹¹ 参数，红色高亮）。

OpenAI的GPT系列和Google的BERT（尽管从技术上讲，BERT是一个仅编码器模型）证明了将参数规模扩展至数十亿级别，能够显著改善模型的语言理解和生成能力。例如，拥有1750亿参数的GPT-3展示了仅通过少量示例便能学习新任务的能力，即所谓的“少样本学习”（few-shot learning）。它能将接收到的文本输入视为临时的“程序”来执行多样化的任务，而无需对其底层模型进行复杂的更新。

然而，单纯扩大模型规模也暴露了其局限性：模型往往会产生不连贯或不符合事实的输出（即所谓的“幻觉”），缺乏精细的控制力，并且可能表现出从训练数据中学到的有害或带有偏见的言行。下一阶段的演进通过指令调优和基于人类反馈的对齐来解决这些问题。研究人员使用“指令-响应”格式的数据集对大模型进行微调，并采用人类反馈强化学习（RLHF）技术，使模型的输出与人类的偏好对齐。值得注意的是，Ouyang等人的研究表明，一个经过RLHF微调的1.3B参数GPT-3模型（名为InstructGPT），其输出在人类偏好评估中甚至优于原始的175B参数GPT-3。这一惊人的结果意味着，一个经过对齐的较小模型，在遵循用户指令方面的表现，可能超越一个虽更大但未经对齐的模型。以OpenAI的InstructGPT和Anthropic经过RLHF训练的Claude为代表的指令调优模型，证明了其更高的可用性，这标志着整个行业从原始的生成模型，转向了更注重实用性和安全性的新阶段。

与此同时，生成式AI也扩展到了新的模态。视觉模型从早期的GAN（生成对抗网络）发展到自回归模型和扩散模型，已经能够合成高度逼真的图像。例如，OpenAI的图像生成器DALL·E（2021年）使用Transformer来逐个生成图像的“令牌”，而其后续版本DALL·E 2（2022年）则采用扩散模型，通过迭代的方式逐步优化图像。扩散模型通过将一个随机噪声输入逐步去噪，最终生成清晰连贯的图像，现已成为图像和视频生成领域的先进技术。到2023年，如OpenAI的GPT-4等多模态LLM已经展现出同时处理文本和图像的能力，逐渐模糊了语言和视觉领域之间的界限。

随着模型能力的增长，其规模也水涨船高——直到实际部署成为一个无法回避的问题。此时，一股逆向趋势应运而生，即开发参数量远为稀少（在10⁸–10⁹量级）但仍保留实用生成能力的小语言模型（SLM）。如图1所示，语言模型的演进既呈现出向更大模型发展的趋势，也出现了为适应边缘部署而生的更小、更高效模型的逆流。Sun等人推出了MobileBERT，这是一个为资源受限设备优化的紧凑型BERT变体；而Lan等人则展示了ALBERT如何通过参数共享和嵌入因式分解技术，在保持性能的同时大幅缩减模型规模。

两种关键方法催生了性能出众的小模型。第一种是知识蒸馏，它将大模型的知识“压缩”到一个小模型中。例如，DistilBERT（2019年）在仅有BERT约40%参数的情况下，保留了其97%的语言理解能力，并且运行速度提升了60%。第二种是量化，它使用低精度算术来减少内存需求。近期的8位和4位量化方法，已能让大模型在运行时仅有微小的质量损失。这些进步共同推动了SLM的发展，使其能够在消费级硬件上运行。

各大公司已经开始在边缘设备上部署SLM：最新的智能手机集成了设备端语言模型（如Google的Gemini Nano服务），而Apple的Neural Engine则运行本地的Transformer模型，以支持文本自动填充和听写等任务。因此，生成式AI的发展轨迹呈现出分化：一方面，规模日益庞大的前沿模型不断刷新性能记录；另一方面，经过优化的小型模型正将AI带入我们的日常设备。

另一个显著的进展是知识检索。即使是小型模型，通过查询外部知识库，也能表现得博学多识。检索增强生成（RAG）技术，通过将来自数据库或网络的相关文档置于模型输入的上下文之前，为模型提供了其自身可能缺乏的事实信息。Lewis等人的研究表明，检索增强模型在开放域问答任务上刷新了记录，性能优于纯参数模型。通过将世界知识的“记忆”外置到外部存储中，RAG技术允许核心模型保持相对紧凑的体积，同时不牺牲事实的准确性。这一理念现已广泛应用于生产系统（例如搜索引擎中的聊天机器人）：一个中等规模的语言模型，在搜索索引或向量数据库的辅助下，其实际效用可以媲美一个规模远大于它的独立模型。

生成式AI从最初的seq2seq模型演进到庞大的多模态LLM，如今正步入一个注重优化和部署意识的设计新时代。尽管通过庞大参数量来扩展LLM以追求顶级性能的研究备受关注，但边缘生成式AI需要的是一种截然不同的方法。Transformer架构的发明、人类反馈对齐的应用、检索增强技术的兴起以及模型压缩技术的进步等关键转折点，正在催生一类全新的、小型的、专用的、可部署的模型。这些SLM的目标并非通过纯粹的规模在排行榜基准上取胜，而是在能力与效率之间寻求一个“恰到好处”的平衡点，以完美适应在边缘设备上运行的需求。

生成式模型的分类

随着生成式AI在边缘的部署日益接近现实，建立一套清晰的分类体系变得至关T重要。原因如下：首先，它有助于我们系统性地评估哪些类型的模型能够在边缘的资源约束下实际运行。其次，它为针对不同模型类别进行特定的优化提供了框架。第三，结构化的分类能帮助研究人员和从业者追踪进展，并识别在开发边缘友好型生成式AI过程中的空白领域。最后，它促进了在边缘部署相关维度上对模型进行有意义的比较。基于此，我们可以从多个维度对生成模型进行分类：模型规模（参数数量）、架构、输入/输出模态以及预期的部署环境。

模型规模

模型可分为小型、中型、大型和超大型前沿模型：

小型模型（参数少于约10亿）：如DistilGPT-2、ALBERT和MobileBERT，这类模型将效率置于首位，通常通过压缩更大型号的模型得到。其体积通常在约100MB到2GB之间，适用于智能手机、平板电脑以及计算资源有限的边缘设备。
中型模型（10亿至100亿参数）：如7B参数的LLaMA模型，这类模型在性能与效率之间取得了平衡。其体积从约2GB到20GB不等，适用于高端移动设备或单个GPU。
大型模型（100亿至1000亿参数）：包括GPT-3（175B）和Meta的200B+模型等旗舰级LLM，它们通常需要服务器级别的加速器才能运行，内存占用约在20GB到200GB之间。
超大型前沿模型（超过1000亿参数）：如Google的PaLM（540B）和GPT-4（1.8T稀疏参数），这些模型挑战着当前硬件的极限，体积超过约200GB，仅限于大规模的云环境部署。

模型规模不仅与知识储备和语言流畅度相关，还直接影响内存占用、运行时间和能耗——这些都是部署就绪矩阵中的关键因素。表1展示了这些不同规模的模型类别如何与不同的部署环境相对应。

边缘生成式AI：在三重约束下寻求可部署的智能-AI.x社区

表1：边缘生成式AI的部署就绪矩阵

该矩阵展示了不同规模的模型在各类部署环境中的运行可行性。颜色编码表示部署的可行性：绿色（理想）、黄色（有挑战但可能）和红色（不可行）。小型模型（<1B参数）在大多数环境中均可行，而超大型模型（>100B参数）则主要局限于云端部署。

该矩阵清晰地揭示了随着模型规模的增加，内存、计算和功耗的限制如何逐步压缩部署选项。它描绘了从微控制器到云服务器等不同硬件环境下运行各类模型的可能性，并突出了每种组合所面临的实际制约。如图所示，只有小型模型是真正适合边缘部署的可行选择；中型模型对于大多数移动设备而言仍具挑战，但适用于企业级环境；大型和超大型模型则主要局限于云环境，其中大型模型在资源充裕的本地服务器上尚有一定应用潜力。

架构

生成模型涵盖了多种神经网络架构。在语言领域，占主导地位的是基于自注意力机制的Transformer架构，它驱动了GPT、BERT、T5等众多模型，如图1所示。在图像领域，自回归Transformer（如GPT）、GAN、VAE（变分自编码器）以及扩散模型都广受欢迎。GAN由一个生成器和一个判别器组成，在一种“最小-最大”博弈中进行训练，通常能产生照片级的逼真输出（如用于图像生成的StyleGAN）。VAE则通过学习数据的概率性潜在表示来进行生成，这在异常检测等任务中颇具价值。

扩散模型是一类较新的基于似然性的模型，因其训练稳定性和生成质量，已在图像和音频生成领域超越了GAN（例如Stable Diffusion中的潜在扩散模型，或用于语音生成的音频扩散模型）。此外，还存在混合型架构，例如将自回归与VQ-VAE结合（如DALL·E的离散VAE + Transformer），或使用扩散目标训练的Transformer模型。值得注意的是，模型架构往往决定了其计算复杂度——Transformer的计算量随序列长度呈二次方增长，而扩散模型则需要多次迭代步骤——这直接影响了它们在边缘设备上运行的适用性。如果能实现可接受的效果，结构更简单的RNN或CNN（卷积神经网络）生成器可能更适合低功耗设备。

模态

生成式AI如今已覆盖文本、视觉、音频、代码及其组合。我们可以根据模型生成的内容类型对其进行分类。文本生成器包括语言模型（如GPT-2、GPT-3），主要产出自然语言。图像生成器包括像BigGAN和StyleGAN这样的GAN模型，以及像Imagen这样的扩散模型，用于创建或转换图像。音频生成模型可生成语音或音乐（如WaveNet用于生成逼真的语音，Jukebox用于创作音乐）。视频生成器（如扩散模型）则将图像模型沿时间维度进行扩展，以合成视频片段。有些模型能够处理多模态输出，例如，根据文本描述生成图像（文生图，如DALL·E），或反之（通过语言模型为图像生成字幕）。此外，还有专门的代码生成模型（如OpenAI Codex），能够根据自然语言描述生成编程代码。

每种模态都有其独特的输入/输出结构和评估指标（例如，文本领域的BLEU/ROUGE，图像领域的FID）。但有趣的是，底层的模型技术（如Transformer、扩散模型等）已开始在不同模态之间趋于融合或相互借鉴。对于边缘部署而言，模态至关重要，因为它决定了所需的传感器类型（如摄像头、麦克风）以及对实时性的要求（例如，为实时对话生成音频，其时间敏感性远高于起草一封电子邮件）。

部署类别

这个维度根据模型的运行环境进行区分。云端模型假设拥有充足的GPU/TPU（张量处理单元）资源，并受益于近乎无限的内存和弹性伸缩能力；它可能会优先追求最高的准确性，并接受高昂的计算成本（例如GPT-4或Imagen的最高配置版本）。边缘模型则经过优化，以便在消费级硬件（如移动SoC、笔记本CPU/GPU等）上独立运行，优先考虑低延迟和高效率。

介于两者之间，还存在一个雾计算/企业级模型类别：这类模型部署在受控环境中，如工厂服务器或5G边缘服务器，可用的计算资源中等，但达不到超大规模云的水平。

在需求最低的一端，是微控制器或IoT模型，它们在极其严苛的约束下运行（例如，只有几MB内存，且没有硬件加速器）。TinyML社区已经实现了在微控制器上运行关键词检测神经网络等壮举；而生成式TinyML（例如在设备上提供短语建议）则是一个新兴的前沿领域。

边缘应用场景

通过上述分类，我们可以清晰地看到，边缘部署涉及特定的模型组合：通常是小型到中型的规模、经过效率优化的架构、与应用相关的模态，以及适应设备限制的部署配置。基于此，在设备端或边缘本地部署生成模型，将在以下几个领域催生变革性的应用：医疗健康、可穿戴与AR设备、机器人技术以及工业/物联网。每个领域都带来了独特的延迟、模态和隐私要求，这也解释了为何“一刀切”的云模型往往难以满足需求。

医疗健康与医疗设备

在医疗领域，数据隐私和即时响应有时甚至关乎生死。想象一下，一个智能内窥镜能够在手术过程中实时生成观察摘要，供外科医生参考；或者一个胰岛素泵能够持续地将血糖传感器的读数转化为给患者的自然语言饮食建议。这些生成任务必须在本地执行，因为隐私（患者数据不能离开设备）和可靠性（手术室可能没有互联网连接）是硬性要求。

设备端语言模型正在被探索用于临床决策支持和医疗文档的起草。例如，一个医生的智能助手可以在检查过程中，于平板电脑上实时总结患者病史并提出可能的诊断建议，而无需将敏感记录发送到云端。早期的研究表明这在技术上是可行的：Nissen等人对Phi-3（2.7B参数）等紧凑型模型在智能手机上的临床推理能力进行了基准测试，发现它们可以达到合理的准确性和可接受的速度，尤其是在经过医疗知识微调之后。像Med42和Aloe这样专用的医疗小模型（MedLM），已经在医疗问答任务上进行了微调，展现出很高的准确性，尽管它们通常需要比旧款设备更多的内存。

该领域面临的关键挑战包括保证事实的准确性（一个带有幻觉的诊断可能是危险的）以及在保护患者隐私的同时持续从新数据中学习。隐私保护微调技术（如设备端学习或跨医院的联邦学习）是一个活跃的研究领域，旨在让本地的生成模型能够保持更新，而无需建立一个集中的数据池。

可穿穿戴设备与增强现实

智能眼镜、耳塞和手表等可穿戴设备具有高度个性化和情境感知的特点，这使它们成为承载定制化生成式AI的理想平台。设想一副AR眼镜，如Ray-Ban Meta眼镜，它能看到用户所见，并低声提示上下文信息：“这款产品有四星评价”或“走近的这个人是John；你们在2019年的一次会议上见过面”。要使这类眼镜在社交场合被接受，它们必须在设备端处理视觉输入并生成输出（文本或音频），因为持续地将第一人称视角的视频流传输到云端将是一场隐私噩梦。边缘生成模型可以为视障用户即时描述场景，或者翻译用户视野中的外语文本（以图像到文本的形式生成）。可穿戴健康监测器则可以利用小型生成模型，将原始的传感器读数转化为连贯的洞察（“今天你的压力水平高于平时，或许可以散个步”）。

这里的模态和资源限制是关键：可穿戴设备通常需要处理多模态数据（加速度计、GPS、摄像头、麦克风），但其计算能力却非常有限（智能手表的AI任务或许只有几百MHz的CPU预算）。这推动了对多模态SLM的研发兴趣，即能够高效处理文本、音频和简单视觉信息的模型。例如，高通公司已经展示了在头戴式设备上本地生成混合现实场景的技术。另一个例子是能够在离线状态下运行的个人语音助手——最新的旗舰手机已经可以完全在设备端运行经过压缩的语音识别和合成技术栈，从而实现对话期间的实时语言翻译等功能，完全无需依赖云端。

对于AR和可穿戴设备而言，低延迟至关重要（AI应能实时增强现实），同时散热限制也极为严格（没人愿意佩戴发烫或沉重的眼镜）。这些应用场景推动了专用架构的发展，例如为低功耗NPU（神经处理单元）优化的Transformer主干网络，以及集成了传感器专用AI模块的方案，比如将一个小型视觉模型的结果馈送给一个语言模型。

机器人技术

在物理世界中操作的机器人，无论是家用机器人、无人机还是工业自动化设备，正日益将生成式AI用于规划、感知和交互。机器人基础模型的概念已经出现：即一个大型（通常是多模态）模型，能够驱动一系列的机器人行为。例如，谷歌的PaLM-SayCan系统将一个语言模型与机器人的执行模型相结合，使得机器人能够解析高层次的指令（如“给我拿点零食”）并生成相应的动作序列。近期的工作，如RT-2（Robotics Transformer），则使用一个视觉语言模型，直接从视觉输入中输出机器人动作，这本质上是将机器人策略视为一种文本生成任务（其中，“文本”指的是电机指令序列）。

目前，这些演示大多依赖于云规模的模型和服务器级的GPU；机器人本身则通过网络连接到这些强大的计算资源。边缘计算面临的挑战在于，如何将足够强大的智能嵌入到机器人的板载计算机中，使其能够在现场自主运行，尤其是在网络连接可能不可靠的环境下（例如，一架检查偏远站点的无人机）。这需要具身化的小语言模型（Embodied SLM），即将传感器数据——如摄像头、激光雷达（LIDAR）——与语言或策略生成能力整合在一起的紧凑模型，并使其完全在机器人的硬件（可能是NVIDIA Jetson或DSP）上运行。

机遇是广阔的：自动驾驶汽车可以搭载一个生成模型，实时向乘客解说其决策逻辑（“我正在减速，因为我看到前方有一个骑自行车的人”），从而增加乘客的信任感。家用的辅助机器人可以拥有一个本地的LLM，使其能够自然地与用户对话，并适应家庭特定的指令，而无需将每个语音查询都发送到外部服务器（这解决了家庭内部互动的隐私问题）。在工业环境中，工厂车间的机器人可以本地共享一个生成模型来协调任务，它们可以合成计划并相互广播——这是向多智能体协作迈出的一步。

机器人应用场景尤其受益于边缘AI的低延迟反应能力（机器人可能需要在毫秒内做出反应）和自主性（火星探测车必须在没有地球服务器支持的情况下自主生成计划）。尽管如此，在机器人中部署生成模型也引入了安全关键性的考量：板载模型若生成错误的指令，可能会造成物理伤害。这凸显了对严格验证、故障安全机制或混合系统的需求，即由可靠的经典控制算法来监督生成式规划器提出的“创意”建议。

工业与物联网应用

在工业领域，大量的物联网设备正在生成海量的传感器数据流。边缘生成模型可以将这些数据转化为有意义的叙述或预测。例如，一个智能工厂中的边缘物联网网关可以使用SLM来生成机床日志的摘要（“A号机床的主轴出现磨损迹象；建议在10天内进行维护”），而不仅仅是向上游发送原始的日志文件。在电网中，边缘AI可以通过生成未来可能情景的模拟数据，来预测需求模式（这是一种数据合成的形式）。

异常检测也可以被视为一种生成任务：模型学习传感器读数的正常分布模式，并将任何它无法“生成”的数据点标记为可能的异常。一个具体的应用是，部署在边缘的摄像头不仅能通过视觉模型检测入侵者，还能生成事件的文本报告（“下午3点05分，一名身份不明的人员从北门进入，携带一个疑似工具箱的物体”）。在本地生成这份报告意味着，敏感的安全录像永远不会未经加密地离开场所。

在工业环境中，隐私问题更多地关系到专有数据（例如制造工艺的商业秘密）；本地生成有助于将这些信息保留在内部。当需要快速的决策循环时（例如，边缘AI在检测到危险情况时生成控制信号以关闭阀门），延迟就显得尤为重要。许多工业边缘设备是带有一定加速能力的小型计算机（如NVIDIA Jetson Nano或Google Coral开发板），它们能够运行中等规模的模型，但功率预算非常紧张。

散热限制和全天候的可靠性在这里也至关重要：边缘生成模型可能需要连续不断地运行，因此它们必须足够高效以避免过热或耗尽备用电源，并且足够稳健以避免崩溃（工厂机器人AI中的内存泄漏可能会导致整条生产线停工）。

纵观以上这些应用场景，一些共同的主题浮现出来。首先，多模态通常是边缘环境的需求——设备拥有各种传感器（摄像头、麦克风等），并且必须生成多样的输出（文本、语音、图像）。这有利于采用模块化或复合模型（例如，一个小型视觉模型将结果馈送给一个语言模型），或者采用统一的多模态模型（如果能做到足够高效）。

其次，个性化和情境化是关键：边缘AI服务于特定的用户或环境，因此必须能够适应上下文。云模型服务于数十亿用户，其上下文是平均化的；而设备端模型则可以进行特化（例如，学习用户的词汇习惯、工厂的典型工况等）。下一节将讨论微调或本地数据学习等个性化技术，它们既是机遇也是挑战（因为本地数据有限）。

第三，隐私和安全既是边缘生成式AI的卖点，也是其基本要求。在本地保留数据可以保护隐私，但确保模型自身的安全也同样重要（例如，确保它不会泄露已记忆的敏感信息，并能抵御篡改）。

总之，在边缘部署生成模型开启了对那些要求低延迟、能在资源受限下工作，并且常常涉及敏感数据或环境的应用的可能性。表2中的示例说明了对边缘生成模型的多样化需求。没有单一的模型能够覆盖所有场景；相反，我们可能会看到针对特定细分领域的专用小型模型大量涌现。下一节将深入探讨实现这些边缘应用场景必须克服的核心技术挑战，并按照数据、模型和计算的结构进行组织。

边缘生成式AI：在三重约束下寻求可部署的智能-AI.x社区

表2：边缘生成模型的多样化需求

边缘生成式AI的核心挑战

在边缘部署生成式AI需要克服多重挑战。这些挑战可以被归纳为三个相互作用的维度：数据（Data）、模型（Model）和计算（Compute）。本节将依次审视每个维度，并关注它们之间的交集。由此，我们提出了所谓的DMC（数据-模型-计算）交互三角（如图2所示），其中每个顶点都对应一个根本性的约束：有限的本地数据、受限的计算资源和对小型模型的需求。三角形的边则代表了两两之间的相互作用（例如，数据-计算：联邦学习处理本地数据；模型-计算：量化/剪枝以适应硬件；数据-模型：迁移学习用少量数据来适应模型）。

边缘生成式AI：在三重约束下寻求可部署的智能-AI.x社区

图2：边缘AI的“数据-模型-计算”交互三角

在三角形的中心，所有三个约束汇集于此，形成了最具挑战性的区域，需要对DMC的权衡进行整体优化。边缘生成式AI正处于这种复合部署约束的范畴内，其中对一个方面的优化往往会加剧另一个方面的问题。在边缘环境中，数据往往是稀缺且孤立的，模型必须小型而高效，计算资源（包括能源和散热空间）也极为有限。满足其中一个约束已属不易，同时满足所有约束则是边缘AI部署的核心所在。

数据约束

与在海量集中式数据集上训练的云模型不同，部署在边缘的生成模型必须应对数据有限且分散的现实。单个边缘设备（如智能手机或物联网传感器）只能接触到数据的冰山一角，这可能不足以训练甚至微调一个强大的模型。这导致了以下几个挑战。

数据稀缺与质量

许多边缘生成应用场景涉及模型原始训练语料库中未曾见过的个人化或情境化数据。例如，一个个人助手可能需要适应用户的写作风格，或者一个工厂模型需要学习某台特定机器的正常运行模式。用于这些特定微调任务的数据量通常很小（可能只有几份文档或几天的日志），并且可能带有噪声或未经标注。在小数据集上微调大模型存在过拟合或学习到虚假模式的风险（例如，语言模型可能会固化用户文本中的一些特殊习惯，从而降低其通用流畅性）。少样本和零样本学习技术正在被研究，以使模型能用最少的数据进行适应；数据增强技术（甚至可能利用生成模型自身来合成额外的训练样本）也是一个方向。

在医疗等领域，标注数据不仅稀缺，而且极其敏感——本地模型或许可以访问患者记录，但将其用于训练则会引发隐私担忧。差分隐私和联邦学习（FL）等技术在此发挥作用，它们允许模型从数据中学习，同时不暴露原始数据（例如，谷歌的Gboard输入法就使用FL技术，在不上传用户数据的情况下，跨用户改进设备端的键盘建议）。然而，联邦方法在处理边缘数据的高度异构性和非独立同分布（non-iid）特性时可能会遇到困难——一个用户或传感器的数据分布可能与其他的截然不同。目前正在开发新的基准测试，以评估FL在这些多样的非独立同分布条件下的性能。

设备端微调（个性化）

理想情况下，边缘生成模型可以从用户的反馈或新的本地数据中持续学习，从而随时间不断改进（例如，让你的聊天机器人更懂你的网络用语）。然而，在设备上进行完整的反向传播训练通常是不可行的，因为它受到计算和内存的限制。即便设备能够处理，也存在模型过拟合用户数据而丧失通用性（你的个性化模型可能对他人毫无用处）以及灾难性遗忘（适应新数据可能导致原有知识性能下降）的风险。

近期的LoRA（低秩适应）和适配器模块等方法，提供了一种轻量化的方式，只需微调模型的一小部分，从而减少了所需的计算资源和数据量。另一种方法是基于提示的个性化：我们不改变模型的权重，而是存储个性化的提示或前缀（有时称为软提示或嵌入），用以在特定于用户的上下文中引导模型。这类似于在不重新训练的情况下，给模型一个关于用户数据的快速记忆。这里的挑战在于，如何确保这些个性化设置不会损害模型的底层安全性或引入偏见（以及如何保护这些设置本身——如果有人提取了你的提示，是否会泄露你的私人信息？）。通信高效的联邦学习策略可以缓解持续进行本地适应所带来的带宽和能源成本。

隐私与数据治理

边缘生成式AI处于用户数据与AI输出的交汇点，这引发了新型的隐私问题。模型可能会无意中输出其训练数据中的敏感信息（在NLP领域，模型反演攻击的研究表明，罕见的训练短语有时可以被逐字复现）。当模型在设备上进行训练或适应时，需要有机制来确保它们不会在响应中“泄露”这些数据。这是边缘模型可审计性这一更广泛挑战的一部分——与云服务提供商可以监控问题输出不同，设备端的模型是自主行动的。设备可能需要工具来扫描生成的内容，以防止隐私泄露，或者过滤掉那些看起来与私人训练数据过于相似的内容（例如，一个在医院本地部署的生成模型，在生成通用报告时不应意外地泄露出患者姓名）。

像GDPR（通用数据保护条例）这样的法律框架也在此发挥作用：如果手机上的模型根据你的数据进行了微调，那么这是否被视为你的数据（答案很可能是肯定的）？如果是，又该如何提供透明度或实现“被遗忘权”？这些问题在很大程度上仍是开放的，需要技术和政策层面的共同创新。

总而言之，交互三角中的“数据”一角，要求我们开发出能从有限数据中学习、能在不共享原始数据的情况下跨设备共享洞见（通过联邦或协作训练），并能维护隐私的方法。当数据成为瓶颈时，我们往往会转向最大限度地利用模型和计算资源（例如，使用一个更大的预训练模型，以减少适应所需的数据量）。但更大的模型又与交互三角的其他角产生了冲突，我们将在下一节看到。

模型约束

模型自身——包括其规模、架构和训练方式——是边缘部署这一难题的核心部分。这里的挑战包括：如何使模型更小、更高效（同时不损失过多性能）；如何在资源受限的环境中处理模型的幻觉和错误；以及如何确保模型在经过量化或剪枝等修改后，依然保持安全和稳健。

模型压缩（规模 vs. 性能）

或许最显而易见的挑战是：当前最优的模型体积庞大，而庞大的模型无法在边缘设备上良好运行，甚至根本无法运行。研究社区已经开发出了一整套模型压缩技术——其中量化、剪枝和蒸馏是主要手段。量化通过降低数值精度（例如，使用8位或4位权重，而非16/32位），可以显著缩小模型体积，并在支持低精度计算的硬件上加速推理。量化感知训练或智能校准方法（如GPTQ、SmoothQuant）甚至能让LLM在8位精度下实现最小的准确率损失。近期的研究，如QT-DoG，进一步探索了量化后的模型如何保持其在未见领域上的泛化能力，这对于真实世界的边缘应用至关重要。然而，过于激进的量化可能会损害模型的“平滑性”。一些用户报告称，4位量化的聊天模型会产生更多重复或混乱的输出，这表明精度的降低可能会以一种微妙的方式降低生成过程的质量。另一个关键的压缩方法是剪枝，它通过移除冗余的权重或整个神经元来缩减模型。它在视觉模型上效果显著，但对于密集的语言模型，除非操作非常谨慎（例如，在微调后进行幅度剪枝），否则剪枝往往会损害输出的连贯性。

蒸馏，即训练一个较小的“学生”模型来模仿一个较大的“老师”模型，是在用更小的体积保留高性能方面，产出最佳结果的方法之一。其缺点是，蒸馏过程本身需要在一个可能非常大的语料库上进行广泛的训练（通常是原始训练数据或由“老师”生成的合成数据集）。对于边缘环境，一个有趣的方向是在线蒸馏：设备是否可以通过与云端模型的交互，持续地将知识蒸馏到本地模型中？例如，当你的手机在线时，它可以查询云端模型，并利用这些查询-回答对来改进其离线模型。这将是联邦学习与蒸馏的结合，但目前这在很大程度上仍处于概念阶段。

除了压缩，另一个在边缘部署中前景广阔的途径是MoE（专家混合）架构。MoE模型将整个模型分解为多个专用的“专家”，在每个推理步骤中只激活其中的一个子集。这种稀疏化的方法可以在保持较大模型性能的同时，降低计算需求。尽管MoE已在云环境中显示出效率优势，但将其应用于边缘环境也带来了新的挑战，例如在延迟约束下的专家路由选择，以及在低功耗环境中的动态专家调度。

尽管存在理论上的优势，但由于实际的权衡，MoE在本地模型中的应用仍然有限。它们要么需要（1）更多的HBM（高带宽内存）来存储完整的专家集合，同时在每次推理中使用较少的计算资源；要么需要（2）复杂的专家加载/卸载机制，这对于资源受限的边缘设备而言并不常见。这些内存与计算之间的权衡，往往使得传统的密集型模型对于当前的边缘部署更为实用。尽管如此，MoE选择性分配计算资源的能力，使其成为在资源受限环境中平衡模型规模与性能的一种有潜力的方法，尤其是在边缘硬件能力持续演进的背景下。

幻觉与可靠性

生成模型以“捏造”信息而闻名——这在聊天机器人中可能只是无伤大雅的怪癖，但在某些边缘应用场景下却可能是灾难性的（想象一下，一个汽车导航AI幻觉出一条不存在的道路）。大型模型通过RLHF和RAG等技术来缓解幻觉问题。然而，在边缘设备上，你可能使用的是一个远小于大型模型、且没有这些奢侈功能的模型，或者是一个未经严格对齐训练的模型，因为它学习和存储精细对齐偏好的能力受限于其自身规模。小型模型通常更容易产生幻觉，因为它们内置的知识和语言技巧更少。这对边缘技术的普及是一个严峻的问题——用户必须能够信任设备端的AI，它才能真正发挥作用。（毕竟，没人希望自己的AR眼镜偶尔会描述一些不存在的东西。）

一种策略是缩小边缘模型的使用范围：对于关键决策，依赖确定性算法或简单的模型，而将生成能力保留用于低风险任务。另一种方法是设备端验证——例如，如果一个边缘模型为机器人生成了一个计划，一个轻量级的验证器（如经典的规划器或物理模拟器）可以评估该计划的可行性。虽然这会增加延迟，但有助于防止明显的失败。第三种方法是延迟决策，即当边缘模型不确定时，将任务卸载到云端。这与Ong等人在RouteLLM中描述的路由方法相符，该方法基于偏好数据学习如何将查询路由到最合适的模型。例如，一个设备端的助手可以本地处理大多数查询，但在置信度较低时（例如，最高预测的概率较低，或检测到领域外的输入），则将任务转交给更强大的云模型。

在边缘设备紧凑的计算约束下，为生成模型设计回退逻辑和置信度度量仍然是一个开放的挑战，因为传统的用于量化不确定性的方法（如蒙特卡洛dropout或集成模型）可能计算成本过高。

基于这些考量，一种更动态的方法正在出现，旨在平衡安全与效率：测试时计算（Test-Time Compute, TTC）。在这种模式下，推理期间的计算预算会根据任务的复杂性或模型的置信度进行实时调整。TTC不是为每个输入都静态地分配资源，而是动态地伸缩计算量——只在必要时才调用更大的子模型或更复杂的计算路径。这使得边缘模型能够为模糊或高风险的输入分配更多的计算资源，同时为常规任务保持高效率。例如，一个设备端的助手可能用一个轻量级模型处理简单的请求，但在处理模糊查询或关键指令时，则升级到一个能力更强的模型。

TTC引入了一种自适应的推理范式，它将计算投入与任务的复杂性对齐，从而使边缘部署能够在不牺牲效率的前提下实现更高的安全性。然而，在资源受限的环境中实现TTC也带来了新的挑战，例如需要设计低延迟的置信度评估器，并确保升级阈值经过精心调优以避免不必要的计算开销。尽管存在这些挑战，TTC为在边缘动态平衡模型的安全与效率带来了希望。

边缘对齐与安全

大规模的对齐（如RLHF）通常是在云端，利用庞大的模型和大量的人类反馈来完成的。那么，你如何确保一个小型边缘模型的安全性、礼貌性和规范性呢？一种可能是将大型模型的对齐行为蒸馏到小型模型中。Ouyang等人的发现——即便是1.3B参数的模型也可以被对齐到超乎寻常的指令遵循水平——是很有希望的，它表明在小体积内实现某种程度的对齐是可能的。例如，对齐后的模型通常具有校准良好的拒绝行为（“抱歉，我无法协助该请求。”）。问题在于，如果这个模型被严重压缩，它是否仍能可靠地触发这种拒绝行为，还是会产生不安全的响应？

早期的证据表明，如果不仔细管理，压缩有时会降低审核过滤的有效性，或使模型更有可能产生有害输出。因此，挑战在于开发出专门针对边缘约束的安全指标和测试方法。我们需要度量诸如“每单位内存占用的有害内容量”这样的指标，或者评估幻觉率作为量化水平的函数。稍后的“安全-效率权衡”一节将提出一些想法。

持续学习与模型刷新

边缘模型一旦部署，其更新频率可能很低（不像云模型可以被中央随时修补或替换）。这引发了模型陈旧的问题；随着时间的推移，设备端的生成模型在其知识库中可能会变得过时（想象一个本地新闻摘要应用，因为它是在2024年训练的，所以对2025年之后发生的事件一无所知）。如果设备主要处于离线状态，它就无法获取更新。

如何保持模型的新鲜度？一种方法是集成一个检索机制，使其能够获取新信息（只要它能访问某些数据源）。另一种方法是在设备连接时进行周期性更新，但为数十亿设备频繁推送大型模型更新并非易事（而且，用户可能不希望下载如此大的文件）。一个相关的挑战是异构性：在一个由众多边缘设备组成的网络中，所有模型的更新可能不会在同一时间进行，甚至不会更新到同一个版本。这可能会使联邦学习变得复杂（客户端的模型版本不同），并造成不一致的用户体验。

边缘生成式AI：在三重约束下寻求可部署的智能-AI.x社区

图3：联邦学习方法比较

该图说明了：（a）传统的联邦学习，其中客户端在本地模型和服务器维护的全局模型之间共享更新；以及（b）个性化的联邦学习，其中客户端维持适应个体用户需求的个性化模型，同时仍然贡献并受益于全局知识库。

“在现场”的模型不再是单一的实体，而是一个版本的分布。边缘友好的算法可能需要能够适应任何现存的模型版本（或许可以通过保持系统其余部分使用的API或接口的稳定性来实现，即使内部实现有所不同）。

每个设备在进行个性化时，可能会从基础模型中“分叉”出自己的版本，这使得在不覆盖个人适应性调整的情况下应用通用更新变得更加困难。解决这个问题可能需要将基础模型的知识与个人的增量更新解耦（以便可以安全地更新基础模型），并使用联邦蒸馏等技术，即用户的模型知识被蒸馏到一个新的全局模型中，然后以保护隐私的方式将更新合并后发回。

本质上，交互三角中的“模型”一角，要求我们在紧凑性与能力之间取得平衡，并以一种能让模型保持真实、安全和更新的方式来实现。这些方面大多又与计算因素直接相关，因为像运行验证器或检索系统这样的解决方案都需要额外的计算资源。现在，让我们转向那个角。

计算约束

边缘设备种类繁多，从电池供电的物联网传感器到智能手机和汽车，但它们都共同面临计算、内存和能源的限制。计算维度通常是最直接的约束——如果一个模型运行太慢或太耗能，它就根本无法在设备上部署。关键挑战包括满足延迟要求、遵守能源/散热预算，以及有效利用硬件加速器。

延迟与实时操作

许多边缘应用场景都有严格的延迟限制（例如，一个AR翻译应用可能需要在50毫秒内生成文本才能感觉即时，汽车AI必须在几十毫秒内做出反应，而一个对话助手则应在不到一秒的时间内响应才能感觉流畅）。要实现这一点，意味着模型的推理过程必须被优化到极致。批处理（即将多个请求的开销分摊）通常不适用于边缘环境，因为任务是一个接一个地到达。这与云端不同，在云端，跨用户的批处理可以提高吞吐量。因此，边缘模型必须在单实例推理时保持高效。这里的技术包括量化（再次强调，对于某些硬件，这可以提速）、操作融合、优化的图编译器（以减少神经网络层之间的开销），以及在某些情况下，跨时间分割模型（例如，大部分时间运行一个较小的模型，只在处理复杂查询时偶尔调用一个较大的模型，从而动态地权衡质量与延迟）。

另一种方法是为速度而蒸馏：除了压缩参数，你还可以训练一个学生模型用更少的层数来匹配老师的输出，这直接针对减少顺序操作的数量（因为在设备上，不像大型GPU集群，你无法在多个核心上进行大规模并行计算——你往往受限于在少数核心上的顺序执行）。某些模型架构也更利于降低延迟：例如，单向Transformer必须为每个生成的令牌顺序地计算注意力，这会增加与输出长度成比例的延迟。非自回归的生成方法（通过迭代精炼来并行生成多个令牌），如果其准确性能被接受，则有可能显著降低延迟。

内存与存储

内存是许多设备上的硬性限制——如果模型无法装入RAM（或移动GPU上的VRAM），它就无法运行。与云服务器不同，你不能简单地为手机或手表增加更多内存。这就是为什么模型规模（参数数量）如此关键。但问题不仅在于模型的权重；推理期间的激活内存也同样重要。运行一个6B参数的模型，在半精度下可能仅权重就需要12GB内存，这远远超过了典型移动设备的RAM。即使加载一个1B参数的模型（约2GB），也可能给某些设备带来压力。另一个问题是模型存储：在设备的闪存中存储大型模型可能会成为问题，尤其是对于那些必须低于特定APK（Android Package Kit）大小限制的应用。压缩技术（如权重聚类和编码）可以在量化的基础上进一步减小磁盘占用，尽管它们可能需要在运行时于设备上进行解压。像Edge-LLM中提出的统一压缩和自适应层调优等技术，通过联合优化计算和内存使用，同时保留模型的核心能力，提供了一种优雅的解决方案。

能源与散热限制

边缘设备通常依靠电池运行，并在严格的散热范围内工作。一个复杂的生成模型如果让手机的CPU/GPU满负荷运行几秒钟，就会耗尽电池并可能导致设备过热，从而引发性能节流。因此，每次推理的能耗必须被考虑在内。一些学术工作提出了诸如“每焦耳预测数”甚至“每千瓦时令牌数”这样的指标。例如，一个int8量化的模型，在同一硬件上，其每次查询的能耗可能比FP16模型低五倍。然而，近期的MLPerf Power基准测试表明，尽管硬件有所改进，ML模型的能效提升正趋于平缓，这凸显了优化回报递减的现象。这种趋平意味着，要进一步降低能耗，可能不仅需要硬件的进步，还需要更激进的模型压缩和架构创新。如果一个应用场景需要频繁地进行生成（例如，在AR中持续运行评论），模型就必须极其高效，或者有专门的硬件加速。

说到硬件，现代手机通常配备了NPU/DSP，它们在处理神经网络任务时比通用CPU的能效高得多。充分利用这些硬件是一个挑战，因为这通常需要对模型进行定制化优化（例如，量化到芯片支持的格式，使用特定的操作）。边缘部署策略应包括硬件感知的模型设计，甚至可能需要搜索最适合目标设备加速器的模型架构（正如PhoneLM的设计过程所做的那样）。散热问题意味着，即使一个设备可以短时间爆发进行大量计算，它也可能无法持续。一个虚拟现实头盔或许可以运行一个重型模型一分钟，但随后可能因为达到散热极限而必须关闭它。

缓解策略包括占空比循环（即间隔地运行模型）、将部分计算任务卸载到附近的边缘服务器（如果可用）——这是一种被称为分割计算的范式。例如，摄像头的数据在设备上进行预处理，然后发送到边缘服务器进行生成，最后结果返回。当完全在设备上运行不可行时，分割计算是一种折衷方案，但它引入了对网络的依赖，这可能与我们最初选择边缘计算的原因相悖。尽管如此，在本地网络或以设备为中心的场景中，它可能很有用（考虑一个智能家居，其中一个更强大的中心设备运行重型模型，为多个低功耗传感器提供服务）。

计算-数据交汇

值得注意的是计算和数据是如何相互作用的。如果你的计算能力低下，你就无法在设备上运行复杂的训练算法，这限制了你利用数据的方式。反之，如果数据稀缺，你或许可以为每个数据点分配更多的计算资源，以从中榨取更多信息（例如，在少量样本上进行非常长时间的训练，尽管这可能导致过拟合）。一个交汇的例子是联邦学习的开销：联邦学习要求设备进行本地训练（这是计算密集型的），并通信更新（如果模型很大，这可能会很耗费资源）。在手机上对整个LLM进行联邦平均是不切实际的，因为它对计算的要求太高了——因此需要像联邦蒸馏这样的研究，或者发送更轻量级的更新（例如，只发送小型适配器的梯度，而非整个模型）。

另一个交汇点：复合部署约束的发生。例如，当你试图量化一个模型（以满足计算限制）时，你发现它的准确性现在降低了，需要更多的数据或微调才能达到可接受的性能，但你并没有这些数据。或者，你尝试在设备上微调一个模型（数据-模型交互），却遇到了内存问题（模型-计算交互）。孤立地解决一个约束是不够的；设计必须能够联合满足数据、模型和计算的约束。

为了说明这一点，让我们再次回到交互三角图：一个边缘解决方案可能会选择一个中等规模的模型（以满足计算需求），然后用检索来增强它（以弥补数据/知识的限制），并对其进行量化（以进一步降低计算需求），但这种量化可能会使模型与检索系统的集成不够连贯，或影响其安全性。这些被称为复合部署约束，即边缘环境的要求组合在一起，创造出了在单独考虑每个因素时不会出现的新研究挑战。

总而言之，“计算”一角要求高效的推理、内存优化以及通常是定制化的硬件感知实现。边缘生成式AI本质上是一项系统工程：它关心的不仅仅是模型的原始准确率，而是整个“传感器→模型→输出”管道在严格预算下运行的能力。数据、模型和计算约束之间的相互作用表明，我们需要一个整体的解决方案——更小的模型、更聪明地使用数据的方式，以及充分利用硬件。没有单一的灵丹妙药。

安全-效率权衡

随着生成模型为适应边缘部署而进行优化，效率（速度、体积、资源占用）与安全（事实准确性、一致性、输出的无害性）之间不可避免地会出现权衡。这表现为一条“安全-效率权衡曲线”——改善一方往往会降低另一方。理解并量化这种权衡至关重要，这样我们才不会部署一个速度超快但却输出不可靠或有害内容的模型，也不会部署一个过度安全但却臃肿到无法在目标设备上运行的模型。

一个重大的担忧是，对模型进行激进的压缩或截断，可能会侵蚀掉大型模型所拥有的经过微调的保护机制和知识。例如，一个4位量化的模型可能会节省内存并运行得更快，但微妙的量化噪声可能会导致它比其16位版本产生更多有害或带有偏见的输出，从而破坏了在安全方面所做的努力。同样，剪枝掉模型30%的权重可能对评估困惑度的影响微乎其微，但这个被剪枝的模型可能会在拒绝不当请求时失败，而原始模型本可以拒绝这些请求。

这些担忧并非空穴来风；近期的研究已经考察了不同压缩技术——如剪枝和量化——对安全指标（包括有害性、偏见和真实性）的影响。他们的研究结果表明，剪枝尤其比量化更能显著增加困惑度，这突显了压缩后模型安全性能下降的风险。然而，该研究并未跨越不同模型规模来比较这些效应，从而留下了关于压缩如何与模型规模相互作用，以及较小的模型是否更容易受到安全侵蚀的开放问题。

边缘生成式AI：在三重约束下寻求可部署的智能-AI.x社区

图4：假设的“安全 vs. 效率”权衡曲线

如图4所示，这种关系可以被概念化，其中X轴代表效率（模型规模或计算要求），Y轴代表安全风险（幻觉、有害性、错误）。向着更高效率移动（向左，更少的FLOPs或更小的模型）往往会增加模型出错或产生不安全行为的风险（向上）。红色曲线表示当前的权衡。像蒸馏对齐、选择性重训练或混合检索等技术（绿点）可以在给定的效率水平下实现更安全的行为，从而将曲线推向理想的绿色前沿。值得注意的是，极小的模型在幻觉和有害性等问题上会出现急剧上升，这表明在给定的模型规模下存在一个安全的底线。

向更高效的模型移动（从右到左）意味着安全性趋于恶化（更高的有害性、更多的错误）。例如，从一个6B模型切换到一个1.3B模型，可能会使在问答基准测试中的幻觉率翻倍。如果进一步缩小到300M模型，可能会使其增加两倍。

也可能存在不连续性：如果量化跨越了某个精度阈值，模型的错误率可能会突然跳升。我们研究的目标是向上弯曲这条曲线，找到那些能在不牺牲过多安全性的前提下提供更好效率的技术路径，从而有效地超越旧的曲线（实现帕累托改进）。

让我们来分解一些在边缘约束下的具体安全担忧。

事实性下降

随着参数数量的减少或量化程度的增加，模型可能会丢失存储知识或保持事实准确性所需的精度。一个规模更大的LLM可能知道晦涩的历史事实，而一个较小的模型可能只能给出近似的答案，或者完全捏造答案。如果检索功能也被移除了（因为设备处于离线状态），那么小模型就只能依靠自己了。这可以通过在设备上维护一个用于验证事实的缓存（一个小型知识库）来缓解，但这又回到了需要更多内存和检索代码的问题上。

一个有前景的领域是稳健的知识蒸馏，即老师模型不仅蒸馏原始输出，还强制学生模型内化事实（或许通过生成问答对或真/假陈述，并训练学生模型来掌握它们）。也有研究致力于将知识模块化，以便小型模型可以按需查询一个经过压缩的知识库。但接下来的挑战是，如何确保模型真的会去查询，而不是产生幻觉。像KnowNo这样的技术，它使用保形预测来校准不确定性，并提示模型在置信度低时推迟响应，为缓解这个问题提供了一种有前景的方法。这类方法可以降低幻觉风险，并确保即使在模型离线或在资源受限条件下运行时，也能保持事实性。为了取得进展，对设备端事实性的评估可能需要新的指标，以平衡准确性与资源限制。例如，“每千焦耳的准确答案数”可能听起来有些奇怪，但却是一个有用的指标，它将事实准确性与能源效率结合了起来。

有害性与偏见

许多大型模型都经过了安全训练，以避免产生有害语言或带有偏见的输出。如果你对模型进行了深度压缩，你需要检查这些过滤机制是否仍然有效。有可能被剪枝的模型无意中移除了一些对于过滤仇恨言论至关重要的神经元。例如，一个经过对齐的模型通常有一个通过许多微妙参数编码的“道德罗盘”——它对压缩的脆弱性很高。

一种方法是在安全特定的数据上对压缩后的模型进行重新训练或微调。例如，在量化之后，再进行一轮额外的RLHF或指令调优，专注于避免有害输出。这可以重新对齐量化后的模型。然而，在设备上进行RLHF是不可行的；这需要在服务器上完成，然后将新的权重推送到设备上。如果设备对模型进行了个性化，它们可能会以偏离安全准则的方式进行（并非有意，但假设一个用户在一个小众网络论坛的文本上对模型进行了微调，它可能会习得该亚文化的语言，而按更广泛的标准来看，这可能是有害的）。将需要有政策来规定用户在多大程度上可以自由地改变设备上模型的行为——这开始触及用户责任与开发者责任的边界。

近期的研究表明，压缩和微调的顺序可以显著影响模型的准确性和偏见。这些发现指出，剪枝后进行微调往往能更好地保留模型的整体准确性，而微调后进行剪枝则能得到一个偏见更低的模型。一种混合方法——根据对准确性和偏见的具体需求来选择操作顺序——可能为压缩经过安全对齐的模型提供一个更稳健的解决方案。

对分布变化的鲁棒性

边缘模型可能会面临与其训练数据不同的输入分布（或许是更多的方言，或带有噪声的传感器数据）。大型模型往往更具鲁棒性（得益于其广泛的训练），而小型模型则可能很脆弱。如果一个边缘模型遇到了意外的输入，它会优雅地回答“我不知道”，还是会出故障（输出随机或不安全的内容）？通常，高效的模型在不确定性校准方面不够稳健。像Liang等人的HELM（语言模型的整体评估）这样的工作强调了对鲁棒性和校准的评估，但针对边缘的模型也需要同样的要求——可能需要新的基准测试，其中模型在资源受限的设置下，或在经过压缩操作后进行评估，以量化鲁棒性下降的程度。多智能体设置（例如，小型模型的集成）在这里可能会有所帮助——如果一个模型不确定，另一个模型可能会发现它，但在边缘设备上运行多个模型是一种计算上的奢侈，可能无法实现。

新兴的组合指标

既然现有的指标不足以应对挑战，可能需要新的指标来结合安全与效率，以引导未来的研究。例如，我们可以使用“每瓦时幻觉数”，即在一个事实问答任务上运行一个模型，直到它消耗了固定的能量（比如1Wh），然后计算它产生了多少不正确的事实陈述。这个数字越低越好（意味着单位能量产生的幻觉更少）。或者，我们可以使用诸如“每单位模型规模每令牌的有害性”这样的指标，这基本上是测量有害内容的比例，并按模型规模进行归一化，以观察压缩是否增加了单位参数产生有害内容的倾向。

虽然这些指标有些刻意，但它们强制我们进行多目标的思考。社区可以考虑将效率纳入排行榜；“能量 vs. 准确率”的图表已经在“绿色AI”的讨论中出现，所以将其扩展到“能量 vs. 准确率 vs. 安全”是合乎逻辑的。最终，一个“足够好”但高效的模型（如图4中的绿点所示）可能优于一个超级安全但庞大到无法部署的模型，或者一个高效但不安全并导致危害的模型。

要驾驭“安全-效率”的权衡，很可能需要混合解决方案（例如，一个小型模型辅以一个轻量级的安全层）。一个想法是设置一个“管理者”——一个远小于主模型的次要模型，用于监控输出以防范危险信号。这与Ji等人的研究相符，他们证明了分析LLM的内部状态可以有效地揭示响应中存在幻觉的风险。例如，设备上的一个小型文本分类器可以监控LLM的输出，以检测仇恨言论或明显的谎言（如果可以参考事实），然后否决或修改输出。这类似于某些云系统拥有一个独立的审核API。这个管理者本身必须是高效的（或许只是一个简单的关键词列表或一个小型的神经网络）。这种双模型系统会稍微增加资源占用，但可能比试图让一个模型做所有事情，实现更高的“单位安全的效率”。

承认并解决“安全-效率”的权衡，对于负责任地部署边缘AI至关重要。我们既不应该为了追求效率而忽视安全（导致不可信的模型），也不应该假设安全只是云端才需要关心的问题。下一代的基准测试和研究应该对模型进行联合谱系的评估。只有这样，我们才能规划出一条同时改善两者的路径——例如，发现某些量化方案能更好地保留事实性，或者某些模型架构在压缩时更少地丢失对齐。有了稳健的评估方法，社区就可以朝着设计出既可信又高效的边缘模型的目标迭代前进。

未来展望

生成式AI与边缘计算的融合正在开启一个新的前沿。正如本文所讨论的，挑战与机遇并存，但通往解决方案的势头已经清晰可见。本章最后将概述关键趋势，并为充分实现可部署的生成式AI提出一个研究议程。我们的指导愿景是，一个由无处不在、个性化且协同工作的智能设备组成的世界，这些设备由可称之为“嵌入式基础模型”的技术驱动，它们封装了有用的知识和技能，同时又足够轻量和安全，能够嵌入到日常技术中。

边缘生成式AI：在三重约束下寻求可部署的智能-AI.x社区

图5：AI能力与底层硬件的演进预测（2025–2030）

图5呈现了未来五年边缘生成式AI演进的预测时间线，描绘了硬件进步与可能出现应用能力的对应关系。该路线图突显了模型压缩、专用硬件和联邦学习等基础研究将如何转化为实际能力，并逐步解决“数据-模型-计算”三角所概述的挑战。

迈向“为设计而生”的专用小模型

迄今为止，许多小型模型都是通过压缩更大型号的模型得到的。一个新兴的趋势是，从一开始就以边缘部署为目标来设计SLM。PhoneLM项目就是这一理念的例证：它执行了架构搜索，以找到在手机硬件上运行最优的Transformer变体，然后对其进行预训练。谷歌的Gemma 3是这一哲学的另一个成功实践。这些模型专为单GPU和资源受限的使用环境而设计，展现了有目的地构建的小模型可以实现令人印象深刻的结果。值得注意的是，Gemma 3甚至优于其更大模型Gemini的旧版本，这突显了资源高效模型与其更大对应物之间的性能差距正在迅速缩小。

这颠覆了传统的范式——我们通常是先训练再优化；但现在，我们是先优化设计。为了推动这一前沿，我们可以期待更多关于在资源约束下对生成模型进行神经架构搜索（NAS）的研究。也可能出现算法上的突破——例如，占用内存更少的新型注意力机制，或新的令牌表示方案（线性或块稀疏注意力的研究可能允许在设备上处理更长的上下文）。

另一个方向是模型模块化：不是让一个庞大的模型做所有事情，而是由多个更小的组件，每个处理任务的一部分（一个用于语言理解，一个用于事实回忆，一个用于风格调整等），它们在设备上或通过本地网络进行协调。这种模块化的方法可以与操作系统调度进程的方式相类比（例如，只在需要时运行视觉模块，否则就让它休眠以节省能源）。研究这些模块之间的接口协议（以便它们能高效地共享上下文）将非常有价值。

联邦生成与学习

在分布式传感器网络或用户社区的场景中，我们可以设想一种联邦生成式AI，即多个设备协作训练，甚至共同生成内容。联邦学习（FL）已经在判别模型上进行了研究；对于生成模型，则有额外的复杂性。例如，如果100部手机共同训练一个语言模型，你如何确保它不会过拟合某个用户的风格，或者将一个用户的短语泄露给另一个用户？已经有关于联邦GAN和VAE的研究，但联邦LLM仍是一个新兴领域。

除了训练，还可以考虑联邦生成。设备之间是否可以共享部分结果来共同生成某些内容？例如，在一个多人的AR游戏中，每个用户的设备可能生成故事或环境的一部分，这需要保持一致性。这里引入的概念是“联邦生成”，即生成分布在多个节点上。一个简单的例子是链式生成：设备A开始一个故事，设备B继续，以此类推，整个过程完全在本地进行，没有中央服务器。这要求模型（或模型们）能够保持连贯，并可能需要共享潜在状态。将需要新的算法来在设备之间同步生成状态。另一个例子是投票或共识：多个设备，每个运行本地模型，然后聚合它们的输出（例如，一群无人机，每个都设想出一条最优路径，然后它们共同商定一条）。这与多智能体系统产生了交集。

多智能体与协作式SLM

多智能体AI通常指的是相互作用的独立AI实体。在这里，我们将多智能体SLM视为一组能够沟通以解决任务的小型模型。不是让一个模型试图做所有事情（这可能需要它非常庞大），而是可以有一个由五个小型模型组成的团队，每个都是某个领域的专家，它们在设备上或通过本地网络进行“交谈”，以产生结果。近期关于生成代理——即在沙盒环境中模拟类人行为和对话的AI代理——的研究已经表明，即使是大型模型，当多个智能体互动时，也会出现有趣的涌现行为。

将这一理念应用到边缘的小型模型上，你可以想象，例如，一个拥有各种设备的家庭，每个设备都运行一个代理：冰箱里有一个膳食规划代理，健身手环上有一个健康教练代理，它们通过本地对话进行协调，为你推荐当天的饮食。这听起来有些未来主义，但它与“环境计算”的愿景相符，即智能是分布式的。研究问题包括：你如何确保代理之间的一致性？如何防止复合错误（一个代理相信了另一个代理的幻觉）？它们应该使用什么样的通信协议（或许是一种极简的语言或数据格式）才能保持高效？

具身化与物理世界基础模型

正如在机器人技术部分所讨论的，人们对能够编码与世界互动技能的机器人基础模型（RFM）越来越感兴趣。未来的具身化SLM可能会将语言、视觉和动作能力整合到一个小体积的模型中，用于家用机器人或汽车助手。术语“具身化SLM”旨在强调那些拥有传感器和运动能力的小型模型。这些模型很可能需要用模拟和真实世界的数据进行训练，并处理连续的控制输出（这与离散的令牌生成有所不同）。像微软的Phi-1模型（一个1.3B的LLM）这样的努力已经表明，通过适当的训练，模型可以展现出某些涌现能力。将经典的控制知识，如PID（比例-积分-微分）控制器或运动规划器，集成到网络中（或许作为可微分的模块），可以为具身化应用产生既安全又灵活的行为。这里的研究议程是，以一种资源高效的方式，将基于模型的控制与无模型的生成策略结合起来。

可信与伦理

随着边缘生成式AI变得日益普遍，确保可信AI至关重要。这涵盖了鲁棒性（不会因为微小的输入扰动而崩溃或行为失常）、透明度（提供某种解释模型为何产生某个输出的能力，这对于生成模型来说很困难，但或许可以给出近似的解释），以及用户控制（允许用户设定偏好或AI行为的限制）。例如，用户可能希望边缘助手避免谈论某些话题；在本地实现这一点，可能需要一个用户可编辑的过滤列表，模型的解码器会遵守这个列表。研究社区也应该研究普及设备端生成式AI的社会影响：它是否会因为每个人的模型都高度个性化于其观点而加剧“回音室效应”？它是否会降低人们对验证信息来源的依赖（因为模型即使错了也能自信地说话）？它是否会带来积极的影响，例如改善没有互联网连接的用户的可及性和赋权？这些问题将塑造技术的设计和部署。与社会科学家和用户体验专家的多学科研究将非常有价值，正如为分析大型基础模型所做的那样；边缘基础模型也需要同样的研究。

可持续性作为未来要务

随着生成式AI向边缘环境中多智能体协作和联邦生成转型，可持续性成为一个核心关切。虽然边缘推理可以通过消除与云端的通信开销来减少运营能耗，但部署数十亿智能边缘设备所带来的隐含碳成本仍然是一个挑战。在生成式AI中实现可持续性，将需要在硬件效率、生命周期管理和负责任的边缘部署策略方面进行创新。到2030年，嵌入式基础模型不仅要做到自适应和可信，还必须在其整个生命周期内都是可持续的——从制造到实时推理。应对这些挑战将需要协作努力，以开发标准化的可持续性基准，并确保未来的AI系统能够平衡性能与长期的环境影响。

标准化基准与指标

与分类或检索任务不同，生成式AI本质上更难评估，因为它产生的是开放式的输出，而非离散的预测。这种复杂性在边缘环境中更为突出，因为延迟、内存和能源的限制与安全、隐私和个性化的要求交织在一起。正如MLPerf已经为数据中心、移动设备和边缘环境的AI性能基准测试奠定了基础，新一代的基准测试需要捕捉到部署在边缘设备上的生成模型的细微需求。这些基准测试应反映实际任务，如实时摘要、低分辨率图像的字幕生成以及注重隐私的对话代理，同时整合多维度的指标，以考量质量、延迟、能耗以及像幻觉或有害性这样的安全风险。在这个领域内，标准化的评估不仅对于比较模型至关重要，也对于确保生成式AI在真实世界设置中负责任且高效地部署至关重要。

然而，未来的边缘AI基准测试必须超越传统的性能指标。可持续性和能源效率应成为评估的核心维度。随着边缘生成式AI的部署规模扩大到数十亿台设备，理解模型推理的碳足迹、本地适应的影响以及边缘设备的生命周期排放，对于负责任的AI部署将至关重要。基准测试也应鼓励参与者提交整个系统，而不仅仅是模型，以确保运行时优化和硬件利用的改进被计入总分。像“每瓦时幻觉数”这样精炼的指标，可以进一步将基准测试与可持续性目标对齐，鼓励那些能够平衡安全、效率和环境影响的创新。

行动号召

随着生成式AI模型从集中式的云服务，演进为在边缘运行的自适应多智能体系统，安全、效率和性能之间的权衡将变得更加复杂。本文讨论的创新——MoE、测试时计算、联邦学习、多智能体协作和具身化AI——是这段旅程中的关键里程碑。到2030年及以后，我们可以期待嵌入式基础模型的出现，它们将无缝地平衡这些权衡，在多样的边缘环境中提供情境感知、高效且可信的AI体验。

但要构建这些系统——并使这一愿景成为现实——需要对机器学习基础设施的复杂性有深刻理解的工程师和研究人员。AI未来的许多创新，不仅取决于算法或数据，更取决于设计、优化和规模化部署智能系统的能力。为此，下一代人才必须接受培训，将机器学习系统理解为一个成熟的工程学科。

结论

边缘生成式AI是AI部署的下一个前沿：从集中的超级计算机，走向与人类并肩工作的无处不在的助手和创造者。挑战是巨大的，但个性化、隐私和创新的机遇也同样巨大。通过应对技术障碍并建立新的框架（无论是概念上的还是基础设施上的），我们可以确保这一转型是成功且有益的。未来几年，我们很可能会看到具身化、联邦化和协作式的小型模型变得司空见惯，它们在幕后安静地工作，提升我们的生活，就像前几代技术中的嵌入式微控制器一样。不同的是，这些模型不仅会计算，它们还会沟通、创造和适应。这取决于我们，研究人员和工程师，为这种可部署的智能铺平道路，并从一开始就以效率、安全和可信的价值观来塑造它。

参考资料：Vijay Janapa Reddi. 2025. Generative AI at the Edge: Challenges and Opportunities: The next phase in AI deployment. Queue 23, 2 (May 2025), 79–137. DOI:https://doi.org/10.1145/3733702.

本文转载自Andy730，作者：常华

标签

边缘生成式

模型

已于2025-9-15 11:14:28修改

51CTO

51CTO博客

51CTO学堂

边缘生成式AI：在三重约束下寻求可部署的智能

核心观点

1. 数据（Data）约束：处理有限、私密且分散的数据

2. 模型（Model）约束：在紧凑体积内平衡能力与风险

3. 计算（Compute）约束：在极致功耗预算下实现实时推理

生成式AI演进脉络

模型分类与部署环境

变革性应用场景

未来展望与行动纲领

边缘生成式AI：挑战与机遇——AI部署的下一个前沿

生成式AI的演进之路

生成式模型的分类

模型规模

架构

模态

部署类别

边缘应用场景

医疗健康与医疗设备

可穿穿戴设备与增强现实

机器人技术

工业与物联网应用

边缘生成式AI的核心挑战

数据约束

数据稀缺与质量

设备端微调（个性化）

隐私与数据治理

模型约束

模型压缩（规模 vs. 性能）

幻觉与可靠性

边缘对齐与安全

持续学习与模型刷新

计算约束

延迟与实时操作

内存与存储

能源与散热限制

计算-数据交汇

安全-效率权衡

事实性下降

有害性与偏见

对分布变化的鲁棒性

新兴的组合指标

未来展望

迈向“为设计而生”的专用小模型

联邦生成与学习

多智能体与协作式SLM

具身化与物理世界基础模型

可信与伦理

可持续性作为未来要务

标准化基准与指标

行动号召

结论

目录