面向未来通信的大语言模型综述:基础、应用与挑战 原创 精华

发布于 2025-5-9 06:33
浏览
0收藏

摘要

6G 无线通信旨在构建一个无处不在的智能互联世界,提供前所未有的通信体验。与传统人工智能(AI)模型相比,大语言模型(LAM)的显著特点是规模巨大(例如,拥有数十亿甚至数万亿个参数)。大语言模型展现出卓越的认知能力,包括对下游任务进行微调的强大泛化能力,以及处理训练过程中未遇到任务的涌现能力。因此,大语言模型能够有效地为各种通信应用提供人工智能服务,成为应对未来无线通信系统中复杂挑战的关键工具。本研究全面回顾了大语言模型在通信领域的基础、应用和挑战。首先,我们介绍了基于人工智能的通信系统的现状,强调了将大语言模型集成到通信中的动机,并总结了关键贡献。然后,我们概述了通信领域大语言模型的基本概念,包括对大语言模型的主要架构(如 Transformer、扩散模型和 Mamba)的介绍,探讨了大语言模型的分类,包括大语言模型(LLM)、大视觉模型(LVM)、大多模态模型(LMM)和世界模型,并研究了它们在通信中的潜在应用。此外,我们还涵盖了通信系统中大语言模型的训练方法和评估技术。最后,我们介绍了思维链(CoT)、检索增强生成(RAG)和智能体系统等优化策略。在此基础上,我们讨论了大语言模型在各种通信场景中的研究进展,包括物理层设计、资源分配与优化、网络设计与管理、边缘智能、语义通信、智能体系统和新兴应用。最后,我们分析了当前研究中面临的挑战,并对未来潜在的研究方向提供了见解。

一、引言

随着各种新技术的不断涌现,通信系统的复杂性和多样性稳步增加,对这些系统的效率、稳定性和智能性的需求也日益增长。无处不在的智能是 6G 的关键愿景之一,旨在为网络及其用户提供实时人工智能(AI)服务,实现随时随地按需提供人工智能功能。为了实现这一目标,6G 网络架构必须考虑信息、通信和数据技术的深度融合,构建一个涵盖计算、数据、人工智能模型和通信整个生命周期的综合资源管理框架 [1]。目前,人工智能技术已经从深度学习时代发展到大语言模型(LAM)时代,如大语言模型(LLM)、大视觉模型(LVM)、大多模态模型(LMM)和世界模型。大语言模型的发展历程如图 1 所示。这些大语言模型具有强大的认知能力,能够为差异化的通信应用场景提供高效的人工智能服务,成为应对未来无线通信系统中复杂挑战的有力工具。在此背景下,大语言模型在通信领域的应用已成为研究热点。本文旨在全面综述与通信领域大语言模型相关的基础、应用和挑战。


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区


(一)背景

6G 旨在创造一个智能互联的世界,为人类社会提供前所未有的通信体验。在国际电信联盟无线电通信部门(ITU-R)提出的 2030 年国际移动通信(IMT 2030)中,定义了六种典型场景:沉浸式通信、超大规模连接、超可靠低延迟通信、集成感知与通信、天地空网络无处不在的连接以及人工智能与通信的融合 [2]。通信、感知、计算、人工智能、安全等多维元素将被集成到 6G 中,为用户提供更先进的通信服务 [3]。

为了实现上述愿景,6G 依赖一系列新颖的通信技术,包括智能反射面 [4]、天地一体化网络 [5]、太赫兹通信 [6]、集成感知与通信 [7]、数字孪生 [8]、元宇宙 [9] 和量子通信技术 [10]。然而,这些新技术的发展给通信系统带来了挑战,如性能接近理论极限以及难以适应大规模、复杂场景的变化 [11]。人工智能与通信的融合将是解决这些问题的有效途径。目前,传统机器学习、深度监督学习和深度强化学习(DRL)等经典方法已在 5G 中广泛应用,成为优化传统算法和操作的有效工具,在核心网、传输网、无线接入网和边缘网络中得到了广泛使用。下面,我们首先回顾人工智能与通信融合的发展历程。

1.深度学习辅助通信:深度学习的快速发展为应对无线通信中的关键挑战提供了坚实的基础 [12]-[15]。通过应用深度学习技术,通信系统在性能和效率方面达到了新的水平。这些进展不仅提高了运营能力,还为未来通信技术的创新铺平了道路。然而,在动态和不确定的环境中,深度学习的泛化能力有限,通信系统仍然面临自适应优化和学习的挑战 [12]。

2.强化学习辅助通信:强化学习已被有效地用于使通信网络实体在给定状态下推导最优策略,包括决策或行动 [16]-[19]。因此,基于强化学习的通信技术在解决动态环境中的策略优化、效率提升和性能改进等关键问题方面显示出巨大的潜力,从而为通信系统的持续优化和自适应学习奠定了坚实的基础 [16]。

3.生成式人工智能辅助通信:随着人工智能技术的不断进步,特别是以 Transformer 模型为代表,人类社会正在迅速进入生成式人工智能(GAI)的新时代。生成式人工智能的发展也为通信带来了新的机遇 [20]。这些生成式模型,包括生成对抗网络(GAN)、Transformer 和扩散模型,能够更准确地学习信息的内在分布,具有更强的生成和决策能力,从而显著提高通信系统的性能和效率 [21]-[24]。然而,随着通信系统变得越来越复杂,通信环境动态变化,生成式人工智能在高维和复杂数据生成任务中可能会遇到模式崩溃和灾难性遗忘等挑战 [25]。

(二)动机

定义:大语言模型代表了人工智能领域的前沿进展,其特点是采用了最先进的生成架构,参数规模达到数千亿甚至数万亿。这些模型展现出与人类相当的认知能力,能够处理日益复杂和多样的数据生成任务。根据处理的数据模态,大语言模型包括大语言模型(LLM)、大视觉模型(LVM)、大多模态模型(LMM)和世界模型 [26]。近年来,GPT [27]、Sora [28]、Meta AI 的大语言模型(LLaMA)[29] 和 Gemini [30] 等知名大语言模型已经改变了包括自然语言处理(NLP)和计算机视觉在内的多个领域的工作流程。大语言模型在人工智能中的作用如图 2 所示。


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区

大语言模型与生成式人工智能的区别:与其他生成式人工智能模型相比,大语言模型在规模和能力上具有显著优势。虽然生成式人工智能模型也专注于生成新数据,但大语言模型通常规模大得多,参数数量达到数千亿甚至数万亿,并且表现出卓越的泛化能力。它们在更广泛的任务中展示出更强的适应性和灵活性。此外,与较小的生成式人工智能模型不同,大语言模型能够展现出上下文学习 [31]、思维链(CoT)[32]、反思 [33] 和涌现 [34] 等新兴行为。这些能力使它们能够快速适应各种下游应用,而无需针对特定任务进行重新训练。

大语言模型与预训练基础模型的区别:预训练基础模型(FM)经过了广泛的预训练,但尚未针对特定任务进行调整。因此,它们容易产生幻觉,通常需要进一步微调才能演变成对任务有效的大语言模型 [35]。例如,基于语言的基础模型通常需要额外的过程,如指令微调  和人类反馈强化学习(RLHF),才能发展成为功能完备的大语言模型 [36]。因此,与通用的预训练基础模型相比,大语言模型可以在特定领域的数据集(如通信领域的数据集)上进一步优化,有效地减轻原始预训练基础模型固有的幻觉问题,并能够更高效地处理各种通信任务。

因此,大语言模型与通信的融合具有以下明显优势 [37]:

-卓越的全局洞察力和决策能力:未来的通信系统将在动态环境中运行,受到设备移动性和流量波动的影响。传统的人工智能方法依赖于局部特征,容易陷入局部最优,难以学习长期的时空特征。大语言模型凭借先进的架构和数千亿的参数,从全局角度捕捉网络特征,适应多尺度的时空依赖关系,并生成稳定的决策响应,而传统神经网络则需要重新训练。例如,大语言模型从全局角度学习用户移动性和流量波动,减轻长期遗忘问题,实现精确的流量预测和资源分配 [38]。

-强大的鲁棒性和泛化能力:未来的通信系统有望支持各种设备,如物联网(IoT)设备和无人机,同时提供包括波束成形设计、用户关联和边缘资源分配在内的管理策略。传统的人工智能方法侧重于学习特定任务的特征,在多个任务中的适应性和鲁棒性受到限制。大语言模型在各种数据和任务上进行训练,在多任务场景中表现出更强的泛化能力,能够在新的用例中做出有效的决策。大量的数据使大语言模型能够捕捉异构设备和不平衡数据集中的复杂模式和细微差异。例如,通过学习信道状态信息(CSI)和网络拓扑结构,大语言模型可以在移动边缘计算系统中设计通用的卸载模型,通过提示优化任务卸载和资源调度,而无需重新训练 [39]。

-先进的理解和涌现能力:未来的通信系统需要为不同的应用场景提供定制化的解决方案。例如,自动驾驶需要超低延迟和高可靠性,而物联网则需要支持大规模连接。传统的人工智能方法依赖于为特定上下文训练的小规模模型,适用性有限。大语言模型利用其卓越的上下文学习能力,可以在 6G 网络中主动分析用户需求和偏好,以极少甚至零样本理解各种场景,从而提供个性化服务。它们的涌现能力使大语言模型能够执行高级认知任务,如逻辑推理和因果推断,动态规划、配置和优化通信网络 [40]。

(三)相关调查工作

表 1 将本研究与现有的相关调查研究进行了比较。现有的调查通常仅关注大语言模型的基本原理和一些关键技术,对不同类型大语言模型的结构和特点分析有限。此外,对最新应用的覆盖往往不足,特别是在通信领域对大语言模型之外的其他大语言模型的综述方面。尽管这些研究为探索大语言模型和生成式人工智能在通信中的应用做出了宝贵贡献,但仍有进一步改进的空间。现有调查研究的局限性可以总结如下:


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区

模型覆盖有限:大多数现有调查主要关注大语言模型(如 GPT 和 LLaMA),而对其他类别的大语言模型,如大视觉模型(如 SAM 和 DINO)、大多模态模型(如可组合扩散(CoDi)和 ImageBind)和世界模型(如 Sora 和 JEPA)关注不足。这些研究往往缺乏一个统一的框架来理解不同类型大语言模型的多样化架构、训练范式和对齐策略,导致对通信领域模型格局的认识不完整。

应用场景不完整:虽然先前的调查对大语言模型在通信中的具体应用提供了有价值的见解,但它们对更广泛应用场景的覆盖仍然有限。特别是,其他类型大语言模型在各种通信任务(如物理层设计、资源分配、网络管理、边缘智能、语义通信和智能体系统)中的作用和潜力尚未得到充分探索。此外,在这些场景中,不同模型的适用性、技术特点和协作策略的系统比较在很大程度上缺失,这可能会阻碍对大语言模型在通信领域的全面理解。

(四)贡献

通过对现有文献的全面总结和系统分析,本研究为读者提供了一个完整的通信领域大语言模型知识框架,涵盖基础综述、应用综述以及挑战和未来方向。图 3 展示了本文的组织结构。具体而言,本文的贡献总结如下:


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区

通信领域大语言模型的基础:首先,我们介绍了大语言模型的关键架构,包括 Transformer 模型、扩散模型和 Mamba 模型。接下来,我们详细分类了大语言模型,涵盖大语言模型、大视觉模型、大多模态模型和世界模型等类别。然后,我们深入探讨了通信领域大语言模型的预训练、微调  和对齐方法。接着,介绍了评估方法,包括通信问答(Q&A)评估、通信工具学习评估、通信建模评估和通信代码设计评估。最后,我们介绍了大语言模型的优化技术,包括思维链、检索增强生成和智能体系统。这些技术可以进一步提高大语言模型的性能,使其有效地应用于通信领域。详细内容请参见第二节。

通信领域大语言模型的应用:我们详细概述了大语言模型在各种应用场景中的研究进展,包括物理层设计、资源分配与优化、网络设计与管理、边缘智能、语义通信、智能体系统和新兴应用。我们对每个方向的研究进展进行了分类和总结,并详细介绍了将大语言模型与通信相结合的代表性工作,展示了当前的研究现状和应用前景,为研究人员提供了可参考的研究方向。详细内容可在第三节至第九节中找到。

通信领域大语言模型的研究挑战:我们分析了大语言模型在面向通信场景中面临的主要研究挑战。首先,当前的通信领域缺乏高质量的标注数据,隐私和成本问题进一步限制了数据的可用性,从而阻碍了模型的训练和泛化。其次,大语言模型难以融入通信领域的结构化知识,这限制了它们在信道建模等任务中的性能。生成幻觉、推理能力不足和可解释性差等问题进一步削弱了它们在关键任务中的可靠性和透明度。此外,大语言模型在处理动态网络环境和多样化通信任务时,适应性和泛化能力仍然存在限制。由于推理延迟高,以及对隐私和安全风险的担忧,在资源受限的场景中部署仍然具有挑战性。详细内容可在第十节中找到。

二、通信领域大语言模型的基础

与传统人工智能和机器学习模型相比,大语言模型由数千亿甚至数万亿个参数和先进的架构构建而成。通过大规模预训练,它们实现了强大的多任务泛化能力。大语言模型展现出卓越的认知能力和多模态推理能力,能够通过上下文学习和微调快速适应下游任务。此外,它们的涌现能力使它们能够理解和解决训练过程中未明确遇到的任务。这种通用性和适应性使大语言模型在未来智能通信系统的发展中具有明显优势。接下来,我们介绍通信领域大语言模型的基础,包括关键架构、模型分类、模型训练和评估以及优化方法。

(一)大语言模型的关键架构

大语言模型通过不断优化和创新,在处理复杂数据和任务方面展现出卓越的能力。关键架构在大语言模型的成功应用中起着至关重要的作用,显著提高了大语言模型的性能和效率,同时也推动了相关技术的不断进步。本节介绍大语言模型的关键架构及其在通信领域的研究进展,包括 Transformer 模型、扩散模型和 Mamba 模型。


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区

1.Transformer 模型:Transformer 是 Vaswani 等人在 2017 年提出的一种新型神经网络架构 [50]。Transformer 架构的主要特点是完全依赖注意力机制,消除了传统序列数据中固有的顺序依赖,使模型能够并行处理输入序列。这种架构在解决长距离依赖问题方面表现出色,特别是在自然语言处理任务中。与传统的循环神经网络(RNN)相比,Transformer 具有更高的并行性和计算效率,非常适合处理大规模数据集和复杂的序列任务。Transformer 架构的工作流程如下:

  • 输入嵌入和位置编码:Transformer 通过嵌入层将输入序列中的每个单词转换为高维向量,这些向量代表它们的语义信息。位置编码被添加到这些单词向量中,使模型能够识别序列的顺序并感知顺序关系。
  • 编码器中的多头自注意力:经过处理的单词向量进入编码器的多头自注意力层。自注意力层通过查询、键和值计算注意力权重,确定每个单词与其他单词的相关性,并捕捉序列中的全局依赖信息。然后,输出通过前馈神经网络进一步处理,并应用残差连接和层归一化来增强模型训练的稳定性和效率。
  • 解码器中的生成和输出:编码器生成的隐藏状态向量被传递到解码器,解码器首先处理先前生成的输出序列部分,以捕捉当前序列的内部依赖关系。随后,交叉注意力机制将解码器的当前状态与编码器的隐藏状态相结合,根据输入序列生成新的输出。最后,经过输出层的处理,解码器产生最终的输出序列。

基于 Transformer 的通信领域代表性研究:Transformer 已被广泛应用于各种前沿大语言模型中,如 OpenAI 的 GPT 系列、谷歌的 BERT 和 T5 模型以及脸书的 RoBERTa [51]。近年来,由于其出色的全局建模能力和高效的并行计算性能,Transformer 模型在通信领域的应用越来越广泛。例如,Wang 等人 [52] 探索了 Transformer 架构在处理 6G 网络中的大规模 MIMO 和语义通信中的应用,强调了深度学习,特别是 Transformer 在网络优化和解决复杂通信挑战中的关键作用。Yoo 等人 [53] 提出了一种基于视觉 Transformer(ViT)的实时语义通信系统,该系统在低信噪比环境下的性能显著优于传统的 256-QAM 系统,展示了语义通信在有效传输信息方面的优势。此外,Wu 等人 [54] 引入了 DeepJSCC-ViT-f 框架,该框架结合 ViT 架构和信道反馈信息,提升了无线图像传输的性能。该框架旨在解决现有联合信源信道编码(JSCC)方法的复杂性和适应性问题。

2.扩散模型:扩散模型是 Sohl-Dickstein 等人在 2015 年提出的一种基于概率扩散过程的生成模型 [55]。扩散模型的主要特点是通过逐渐向数据中添加噪声,然后学习反向去噪过程来生成数据。它擅长生成高质量、细节丰富的图像,特别是在处理复杂的图像生成和信号恢复问题时。扩散模型的工作流程如下:

正向扩散过程:正向扩散过程通过逐渐添加高斯噪声,将数据映射到接近标准正态分布的状态。这个过程逐渐破坏数据,使数据越来越模糊,最终形成高噪声状态。每一步添加的噪声是逐渐增加的,逐渐掩盖数据的原始结构信息。

反向扩散过程:在反向扩散过程中,模型通过逐渐去除噪声,将数据从高噪声状态恢复到原始数据状态。这个过程通常通过训练神经网络来逼近反向扩散过程的概率分布。网络学习如何从噪声中逐渐恢复数据,以生成与原始数据相似的新样本。这一步是生成过程的关键,使模型能够有效地从噪声中 “重建” 数据。

基于扩散模型的通信领域代表性研究:近年来,扩散模型因其卓越的性能和灵活性受到广泛关注。这些模型在图像生成方面表现尤为突出,在通信领域也显示出巨大的应用潜力。例如,Jiang 等人 [56] 提出了一种名为生成对抗网络和扩散模型辅助信道估计(GDCE)的信道估计方法,将扩散模型和条件生成对抗网络(CGAN)相结合。首先使用 CGAN 生成 CSI,然后扩散模型对 CSI 信息进行细化。通过扩散模型逐渐去除噪声,生成更精确的 CSI 图像,提高信号恢复的准确性。Du 等人 [57] 研究了生成扩散模型(GDM)在网络优化中的应用,特别是在深度强化学习、激励机制设计、语义通信和车联网等复杂智能网络场景中,展示了 GDM 对复杂数据分布进行建模和生成高质量决策的潜力。Wu 等人 [58] 针对无线语义通信系统中的图像传输任务,提出了信道去噪扩散模型(CDDM)。该模型利用扩散模型的去噪优势,通过学习信道输入信号的分布,提升了图像传输质量和通信系统性能。此外,Duan 等人 [59] 引入了用于多输入多输出的扩散模型(DM-MIMO)模块,用于稳健的 MIMO 语义通信。它将扩散模型与奇异值分解(SVD)预编码和均衡相结合,降低信道噪声,降低均方误差,并提高图像重建质量,在 MIMO 系统中表现出优异的性能。Chi 等人 [60] 提出了 RFDiffusion,一种基于时频扩散理论的无线电信号生成模型。通过增强扩散过程,该模型能够在时域和频域生成高质量的序列射频信号。Grassucci 等人 [61] 提出了一种使用条件扩散模型的生成式音频语义通信框架,以解决传统音频信号传输中的带宽消耗和错误恢复挑战。

3.Mamba 模型:Mamba 是 Gu 等人在 2022 年提出的一种用于高效处理长序列数据的生成架构 [62]。Mamba 的主要特点是能够高效处理长序列数据。它通过基于输入数据的选择机制,使模型能够专注于相关信息并过滤掉不必要的部分。同时,它采用了硬件感知计算算法,专门针对 GPU 上的处理性能进行了优化,显著加快了计算速度。Mamba 模型擅长处理高维、长序列的复杂数据,如自然语言、视频或时间序列任务。通过优化数据流处理和资源分配,它可以有效减少通信延迟,提高系统性能。Mamba 架构的工作流程如下:

输入处理和投影:输入数据(如文本、图像、时间序列等)被分割成多个片段(标记或补丁),并通过线性投影层转换为向量表示。这一步与其他深度学习模型的预处理过程类似,用于将输入映射到高维空间。

选择机制:状态空间是描述模型动态行为的变量集合。Mamba 使用高效的选择机制,根据输入数据动态调整状态空间参数。这个机制使模型能够过滤掉不相关的信息,只保留关键特征信息,从而实现基于内容的建模。这个过程通常使用卷积层来实现。

SSM 计算:状态空间模型(SSM)计算是使用 SSM 对输入数据进行建模并生成输出的过程。使用离散化的 SSM 方程来计算输入数据,其中包括状态方程和观测方程。状态方程描述状态变量随时间的变化,观测方程描述观测变量如何从状态变量中生成。Mamba 架构使用这些方程来学习序列数据中的复杂模式,并生成高质量的输出。

输出生成:在 SSM 完成对输入的处理后,Mamba 将输出传递到全连接层或其他与任务相关的层(如分类器或生成器),以生成最终输出。

基于 Mamba 的通信领域代表性研究:Mamba 架构在长序列建模和多任务并行计算方面取得了重大突破。其高效的处理能力和动态调整机制受到了广泛关注。例如,Wu 等人 [63] 提出了用于图像无线传输的 MambaJSCC 架构。该架构基于广义状态空间模型(GSSM)和 CSI 残差传输(CSI-ReST)实现自适应编码。MambaJSCC 使用 VSSMCA 模块,并结合 GSSM 的可逆矩阵变换,能够有效捕捉全局信息,在不增加计算和参数开销的情况下,实现图像传输的高性能和低延迟,超越了现有方法。Yuan 等人 [64] 提出了 ST-Mamba,解决了交通流估计的准确性和稳定性问题,在数据有限的情况下表现良好。ST-Mamba 结合了卷积神经网络(CNN)和 Mamba 框架,能够有效捕捉交通流的时空特征。Yu 等人 [65] 提出了基于视觉 Mamba 的水下声图像语义通信模型 VimSC。通过结合正交频分复用(OFDM)技术,显著提高了复杂水下环境中图像传输的质量。VimSC 使用 CSI 反馈预编码网络来调整语义符号,并使用信道估计和均衡器实现准确的图像重建。实验结果表明,在低信噪比环境下,其性能优于传统方法。

(二)大语言模型的分类

如表 3 所示,我们根据处理的数据类型对大语言模型进行如下分类 [66]。尽管先前的研究中提出了其他分类方法,但我们基于数据类型的分类提供了一个更具针对性和实用性的框架,更适合应对通信系统中的各种挑战,如处理不同模态、优化资源分配以及提高各种通信任务的系统效率。


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区

1.大语言模型:大语言模型是一种具有大量参数和复杂架构的自然语言处理模型。它通过在大量文本数据上进行预训练,学习语言的结构和语义。这些模型可以生成自然流畅的文本,并执行多种语言任务,如翻译和问答。大语言模型通常基于深度学习架构,如 Transformer,能够有效捕捉长距离依赖关系。它们通过优化复杂的损失函数来调整内部参数,提高性能。大语言模型具有以下技术特征:

语言理解和生成:大语言模型在处理文本数据时表现出强大的语言理解和生成能力。通过在大规模文本上进行预训练,它们学习到丰富的语言模式和知识,能够理解复杂的语言结构和上下文。大语言模型不仅能够识别和解释单词、短语和句子的含义,还能捕捉语言中的细微差别,如语气和情感。在生成文本时,它们能够创建连贯且富有创意的内容,保持语法和语义的准确性,并具备多语言翻译能力,展示了跨语言理解的潜力 [67]。

记忆和推理能力:大语言模型因其出色的记忆和推理能力而被广泛应用。通过对大量文本数据的深度学习,它们能够记忆和理解丰富的语言知识和事实信息,并在不同的上下文中保持一致性和连贯性。该模型不仅掌握词汇和语法,还能理解复杂的上下文和长距离依赖关系。在推理方面,大语言模型可以基于文本进行逻辑推理,推断隐含的含义、因果关系和结论,处理多步推理任务,并在一定程度上模拟人类的思维过程。它们利用记忆中的信息进行推理和预测新情况,生成连贯且符合逻辑的文本,因此在摘要生成、问答和文本分析等任务中表现出色。

经典大语言模型:经典的大语言模型包括 GPT 系列、Gemma 系列和 LLaMA 系列等。这些模型拥有大量参数,能够有效地处理和生成自然语言文本,在各种自然语言处理任务中表现出卓越的性能。下面,我们详细介绍三个经典的大语言模型。

i.GPT 系列:GPT 系列由 OpenAI 开发,代表 “生成式预训练变换器”。这些模型通过在大量文本数据上进行预训练,学习语言模式并生成自然语言。自 GPT-1 推出以来,GPT 模型已经经过多个版本的演进,包括 GPT-1 [68]、GPT-2 [69]、GPT-3 [70]、GPT-4 [27] 和 OpenAI o1。最初的 GPT-1 于 2018 年发布,专注于文本生成,使用无监督学习从大量文本数据中学习语言模式。2019 年发布的 GPT-2 将参数数量从 1 亿增加到 15 亿,生成的文本更加连贯,能够处理更复杂的任务。随后,2020 年推出的 GPT-3 将参数进一步增加到 1750 亿,展示了强大的少样本学习能力,能够在无需微调的情况下执行翻译、问答和代码编写等各种任务。2023 年发布的 GPT-4 引入了多模态功能,使其除了文本之外还能理解图像,同时在推理能力、逻辑性和连贯性方面有了显著提升,擅长处理复杂的推理问题。2024 年,OpenAI 发布了模型 o1,与前几代大语言模型相比,它在反思推理方面表现出卓越的能力。它能够通过对复杂问题进行多层次分析,生成更精确、逻辑更一致的回答。这使得 o1 在模糊或不确定的情况下能够有效地进行自我修正和反思,从而提高了其在实际应用中的可靠性和智能性。GPT 系列的发展为自然语言处理和人工智能的发展开辟了新的可能性。

ii.Gemma 系列:Gemma 系列由谷歌开发,包括 Gemma 1 [71] 和 Gemma 2 [72]。Gemma 1 于 2024 年发布,有两个不同规模的版本:20 亿参数和 70 亿参数,以适应各种计算环境和应用需求。该模型架构基于 Transformer 解码器,并融入了多项技术改进,如多头注意力机制、旋转位置嵌入(RoPE)和高斯误差线性单元(GeGLU)激活函数,使模型能够表现出强大的上下文理解能力,在各种文本生成任务中表现出色。Gemma 2 于 2024 年推出,提供 90 亿和 270 亿参数的版本。该模型采用了增强的 Transformer 架构,包括局部和全局注意力的交错使用以及组查询注意力技术,从而提高了模型的语言处理能力。与 Gemma 1 相比,Gemma 2 在参数规模和性能上都有显著提升。

iii.LLaMA 系列:LLaMA 系列是由 Meta AI 团队开发的基础语言模型,包括 LLaMA-1 [29]、LLaMA-2 [73] 和 LLaMA-3 [74]。LLaMA-1 和 LLaMA-2 均于 2023 年发布。LLaMA-1 系列有多个不同规模的模型,参数数量从 7 亿到 65 亿不等。与之前的语言模型相比,LLaMA-1 通过优化模型结构和在训练过程中引入改进的算法,在保持较低计算成本的同时,提高了文本生成的准确性和流畅性。LLaMA-2 在此基础上进行了重大改进,扩展了模型规模,提供 7 亿、13 亿、30 亿和 70 亿参数的版本。它通过优化自注意力机制和算法,增强了模型的上下文理解能力。LLaMA-3 于 2024 年发布,进一步扩展了参数数量,提供 80 亿和 700 亿参数的版本,并纳入了更多的预训练数据,在基准测试中表现出卓越的性能。

基于大语言模型的通信领域研究:大语言模型凭借其强大的数据处理能力,在通信领域得到了广泛应用,提高了通信系统的效率,显著推动了其快速发展 [75]。大语言模型与通信系统的融合也是未来的一个关键研究方向。例如,Jiang 等人 [76] 提出了一种由大语言模型驱动的多模态语义通信(LAM-MSC)框架。它可以实现多模态到单模态的数据转换、个性化语义提取和无线 CSI 估计,从而通过大语言模型解决多模态语义通信中的数据离散性和语义模糊问题。此外,Jiang 等人 [77] 提出了一种基于基础模型的语义通信架构。他们引入了 GPT,利用大语言模型增强语义理解和数据重建效率,并采用微调技术解决由于大量模型参数导致的高计算复杂度问题。Jiang 等人 [40] 提出了一种多智能体系统,以增强大语言模型在 6G 中的能力,通过自然语言输入改进网络优化和管理。它集成了数据检索、协作规划和评估,以解决有限的私有通信数据和受限的推理问题,从而在这种情况下扩展大语言模型的知识和功能。Wang 等人 [78] 提出了一种集成大语言模型的通用端到端学习语义通信模型,以提升下一代通信系统的性能。它通过子词级标记化、用于信道编解码器匹配的速率适配器以及针对私有背景知识的微调,解决了语义保真度、跨场景泛化和复杂性等挑战。Xu 等人 [79] 提出了一种用于 6G 网络中大语言模型智能体的分裂学习系统,以增强人机交互并提供个性化的跨域辅助服务。该系统将复杂任务卸载到边缘服务器,以解决移动设备的容量限制问题。其具有感知、基础和对齐模块的架构能够实现模块间通信,以满足 6G 用户的多样化需求。

2.大视觉模型:大视觉模型是一种处理和理解视觉数据的基础模型。它通常采用卷积神经网络(CNN)和 Transformer 架构。大视觉模型从大量图像中学习丰富的视觉特征,在图像分类、目标检测、图像分割和生成等任务中表现出高准确性和强大的泛化能力。随着不断的发展和优化,大视觉模型在推动图像处理技术的进步方面发挥着重要作用 [81]。大视觉模型具有许多技术特征,如特征表示学习和支持多种视觉任务,具体如下:

特征表示学习:在大视觉模型中,特征表示学习是核心技术之一,它通过深度神经网络自动提取和学习图像中的重要特征。这个过程主要依赖 CNN 和视觉 Transformer(ViT)来完成。CNN 首先通过多层卷积和非线性激活函数提取局部特征,然后通过全连接层或池化操作将这些局部特征整合为全局特征。Transformer 架构通过自注意力机制进一步增强了特征表示能力,能够捕捉图像中的长距离依赖关系和复杂的上下文信息。通过大规模预训练和精细微调,大视觉模型可以优化特征表示,显著提高视觉任务的性能。

支持多种视觉任务:支持多种视觉任务是大视觉模型的重要特征之一。通过深度学习技术,它可以支持多种视觉任务,并在广泛的应用场景中发挥作用。这些任务包括图像识别、目标检测、场景解析、图像分割、图像生成、图像编辑和视频分析。它们可以识别和理解图像中的物体和场景,定位物体的位置和大小,分析物体之间的关系,分割图像区域,创建或修改图像内容,以及处理视频中的动作和事件。此外,它们还支持 3D 重建,以增强虚拟环境的视觉体验。

经典大视觉模型:经典的大视觉模型包括 SAM 系列、DINO 系列、Stable Diffusion 系列等。下面,我们详细介绍这些大视觉模型。

SAM 系列:SAM 是由 Meta AI 开发的大视觉模型,旨在高效地进行图像分割。SAM 系列包括 SAM-1 [84] 和 SAM-2 [80]。SAM-1 于 2023 年发布。其核心技术是基于自注意力机制的深度学习架构,能够识别图像中的任何物体,并以高分辨率细化其边界。该模型设计用于广泛的应用场景,不仅可以处理常规的目标分割任务,还能处理复杂的多目标分割和细节处理。SAM-2 于 2024 年发布,在多个方面进行了改进,以进一步提高图像分割的性能。首先,SAM-2 优化了分割精度,特别是在处理复杂场景和小目标时,能够更准确地识别和分割多种类型的物体。其次,SAM-2 在模型架构上进行了升级,引入了更先进的深度学习算法和优化的自注意力机制,使其能够更有效地捕捉图像中的细节和长距离依赖关系。此外,推理速度也得到了提高,处理效率更高,在需要实时响应的场景中表现尤为突出。

DINO 系列:DINO 系列是由 Meta AI Research 和 Inria 联合开发的无监督视觉特征学习模型。它旨在通过大规模精心整理的数据集生成通用的视觉特征,无需进行微调。该系列模型包括 DINO V1 [85] 和 DINO V2 [86]。DINO V1 于 2021 年发布。它使用 Transformer 架构,并采用对比学习方法。通过输入不同视角的图像进行处理,DINO V1 可以学习识别和区分图像中的不同元素和结构。这种方法使 DINO V1 能够在未标记的图像数据上进行预训练,并生成适用于各种视觉任务(如图像分类、目标检测等)的强大图像表示。DINO V2 于 2023 年发布。与 DINO V1 相比,DINO V2 在许多方面进行了重大改进。DINO V2 采用了更先进的架构,扩大了模型规模,并使用了更多的计算资源,从而提高了特征表示的准确性和处理复杂视觉任务的能力。优化了对比学习策略和自监督机制,提高了对不同图像类型的鲁棒性和泛化能力。在训练过程中,DINO V2 引入了改进的训练技术和数据增强方法,以增强其在复杂场景和小目标处理方面的性能。

Stable Diffusion 系列:Stable Diffusion 系列是由 Stability AI 开发的用于生成高质量图像的模型。这些模型使用扩散模型技术,广泛应用于图像生成、图像恢复和图像变换等任务。该系列包括 Stable Diffusion V1 [87]、Stable Diffusion V2 [87] 和 Stable Diffusion V3 [88]。Stable Diffusion V1 于 2022 年发布,通过大量的训练数据和扩散模型技术,能够生成细腻多样的图像。该模型标志着图像生成领域的一个重要突破,具备在多种场景下生成高分辨率图像的能力。随后,Stable Diffusion V2 于 2022 年发布,带来了更显著的改进。这个版本使用了更新的生成技术,支持更高分辨率的图像,在处理复杂场景和细节方面表现更出色。Stable Diffusion V3 于 2024 年发布。与 V2 相比,Stable Diffusion V3 通过引入整流傅里叶变换器(RFT)架构,取代了 V2 的 U - Net 骨干网络,显著提高了图像和文本编码处理能力。Stable Diffusion V3 使用三个芯片编码轨道(即原始文本编码、转换后的文本编码和图像编码)来改善与图像的多模态交互,能够生成更精细、上下文更准确的图像,特别是对于复杂的提示。

基于大视觉模型的通信领域研究:通过将大视觉模型应用于通信领域,可以使通信系统在处理视觉任务时更加高效。Jiang 等人 [37] 利用 SAM 构建了语义知识库(SKB),从而提出了基于大语言模型的语义通信框架 LAM - SC,专注于图像数据的传输。SAM 无需特定训练即可对任何图像进行准确的语义分割,将图像分解为多个片段,每个片段包含一个语义对象。此外,Tariq 等人 [89] 提出了一种基于 SAM 的语义通信方法,在图像传输中保留语义特征,确保高质量的重建。该方法利用 SAM 克服了传统提高传输速率方法的边际效益递减问题,同时降低了通信开销。

3.大多模态模型:大多模态模型能够同时处理和理解来自不同模态(如视觉、语言、触觉和听觉)的数据。这些模型通过在统一的高维空间中整合各种模态的特征,实现对多模态信息的全面处理和推理。它们利用先进的神经网络架构(如 Transformer 和扩散模型)从每个模态中提取特征,并通过对比学习和自监督学习等技术优化其表示。通过跨模态训练,这些模型能够理解和关联不同模态之间的语义关系,从而在处理复杂的多模态数据时表现出色,并提供智能、高效的解决方案。与视觉语言模型(VLM)不同,大多模态模型支持视觉和文本之外的更多模态 [90]。

大多模态模型在处理多模态信息方面表现出强大的能力。其核心技术特征是跨模态融合和多模态表示学习:

多模态表示学习:多模态表示学习是大多模态模型的一项重要技术。它将图像、语音和文本等不同模态的特征表示整合到一个统一的高维空间中。首先,大多模态模型使用 ViT 提取图像特征,使用 Transformer 提取文本和语音特征。然后,通过拼接和加权求和等方法将这些高维向量融合,形成统一的特征表示。这种融合使大多模态模型能够更好地理解和关联来自不同模态的信息,提高多模态任务的性能。

跨模态融合:大多模态模型通过跨模态融合技术整合文本、图像、音频和视频等多种数据类型,实现更深入的理解和分析。这些大多模态模型可以同时处理来自不同模态的数据,并学习它们之间的关系。例如,大多模态模型可以将图像与相关文本结合,生成更丰富的描述;在视频分析中,它可以理解视频中的视觉内容以及语音和文本信息。此外,这些大多模态模型还可以进行跨模态推理和预测,如从文本生成图像或音频。这些能力使大多模态模型广泛应用于自然语言处理、计算机视觉、语音识别等领域。

大多模态模型集成了许多先进的模型架构,能够处理和理解不同模态的数据。下面,我们详细介绍三个大多模态模型:

CoDi 系列:CoDi 系列由微软 Azure 和北卡罗来纳大学开发,是一种创新的多模态生成模型。该系列包括 CoDi - 1 [91]、CoDi - 2 [92]。CoDi - 1 于 2023 年由微软推出,旨在提高图像生成的准确性和灵活性。CoDi - 1 利用条件扩散模型技术,通过将特定的条件信息(如文本描述、标签或其他输入数据)与图像生成过程相结合,实现对生成结果的精确控制。CoDi - 2 于 2024 年发布。与 CoDi - 1 相比,CoDi - 2 在许多方面进行了重大改进,进一步提高了图像生成的能力和效果。首先,CoDi - 2 引入了增强的条件控制机制,使生成的图像能够更准确地符合复杂的条件输入。这一改进包括更灵活的条件编码方法和更精细的条件处理策略,从而提供更高的控制精度。其次,CoDi - 2 通过采用更先进的扩散技术优化了模型架构,改进了网络设计,使生成的图像质量更高、细节更丰富。此外,CoDi - 2 引入了改进的数据增强方法和优化的训练技术,提高了图像生成的速度和稳定性。

Meta - transformer:Meta - transformer [82] 是一种多模态学习框架,旨在处理和关联来自不同模态的信息。它使用固定的编码器实现多模态感知,无需配对的多模态数据。该框架由三个主要组件组成:一个统一的数据分段器,将各种模态的数据映射到共享的潜在空间;一个模态共享编码器,提取高级语义特征;特定任务头。Meta - transformer 可以统一处理 12 种模态的数据,如自然语言、图像、点云、音频、视频、红外、高光谱、X 射线、时间序列、表格、惯性测量单元(IMU)和图形数据。其主要优点是将不同模态的数据转换为统一的特征序列,使用共享编码器提取特征,降低了跨模态对齐的复杂性,提高了训练的灵活性。

ImageBind:ImageBind [93] 是一种先进的大多模态模型,旨在通过共享的嵌入空间整合来自不同模态的数据。该模型可以处理来自六种不同模态的数据,如图像、文本、音频、深度、热成像和 IMU 数据。其创新之处在于无需明确配对数据即可进行跨模态对齐。通过对比学习,将来自不同模态的数据投影到统一的表示空间,从而增强了模型的泛化能力和跨模态理解能力。ImageBind 在多模态检索、分类和生成任务中表现出色,特别是在处理未对齐的数据时。

基于大多模态模型的通信领域研究:大多模态模型因其强大的多模态信息处理能力在通信领域得到广泛应用 [94]。例如,Jiang 等人 [76] 通过将多模态处理模型 CoDi 与语言通信系统相结合,提出了 LAM - MSC 框架。在这个通信系统框架中,CoDi 模型可以将多模态数据转换为文本数据进行处理,实现模型的跨模态处理。LAM - MSC 框架在仿真实验中表现出色,能够有效处理多模态数据通信,并保持原始数据和恢复数据之间的语义一致性。Qiao 等人 [95] 通过结合 BLIP、Oscar 和 GPT - 4 等模型,提出了一种基于预训练生成模型的延迟感知语义通信框架。该框架旨在通过多模态语义分解和传输,在未来的无线网络中实现超低数据速率的语义通信。在这个框架中,发送器对输入信号进行多模态语义分解,并根据意图选择合适的编码和通信方案来传输每个语义流。对于文本提示,采用基于重传的方案确保可靠传输,而其他语义模态则使用自适应调制 / 编码方案来适应变化的无线信道。

4.世界模型:世界模型是一种描述和模拟现实世界现象的抽象框架,旨在创建能够理解和模拟环境的智能系统 [96]。世界模型主要由两个关键组件组成:环境模拟器和控制器。环境模拟器负责构建一个能够预测环境状态和行为的模型,通常通过深度神经网络实现。这些网络经过训练,以理解环境的动态特征,并生成对未来状态和奖励的预测 [97]。控制器使用这个模拟器进行决策,并通过在模拟环境中训练和优化,提高其在现实环境中的性能。

世界模型通过提供模拟场景来支持大语言模型,帮助大语言模型泛化并适应复杂和动态的环境。与主要用于实时复制现实世界对象或系统的数字孪生不同,世界模型专注于在虚拟环境中模拟和训练大语言模型 [98]。下面我们详细介绍世界模型的特征:

长期规划和认知决策:世界模型模拟和预测复杂系统的动态变化,并做出有效的决策。长期规划包括从历史数据中学习模式,预测未来趋势,以指导资源分配和行动选择。世界模型可以评估不同策略的长期影响,帮助决策者理解不同的选择,并制定可持续的计划。世界模型还可以模拟不同场景下的决策过程,提供多种解决方案,支持在复杂环境中做出明智的选择。这种动态和预测能力使其在政策制定、资源管理和风险评估中具有重要价值。

持续感知和具身智能:世界模型在持续感知和具身智能方面具有显著优势。它可以实时从环境中获取信息,监测和分析各种变量(如气候、交通流量等),为决策提供最新数据。具身智能使模型能够将感官信息与物理实体相结合,模拟实体在环境中的行为和交互。这种能力支持更复杂的任务,如自动控制、机器人导航和环境监测,使其在智能交通、智慧城市管理和灾害预警等领域具有广阔的应用前景。

有许多经典的世界模型,为通信领域的研究提供了许多新的思路。下面,我们详细介绍三个世界模型:

Sora:Sora 是 OpenAI 发布的一款具有开创性的文本到视频生成模型 [28],展示出显著的涌现能力。它基于预训练的扩散 Transformer,能够根据文本指令生成高质量的视频,通过渐进式去噪和文本提示引入细节。Sora 在多个方面表现出色,包括模拟能力、创造力和易用性。虽然没有明确的 3D 建模,但 Sora 展示出 3D 一致性,如动态相机运动和长距离连贯性,并且能够模拟物理世界的某些方面和简单的交互。

JEPA:联合嵌入预测架构(JEPA)[99] 是一种用于多模态学习的世界模型,旨在通过联合嵌入和预测任务增强对复杂数据的理解。通过将不同模态的数据映射到共享的嵌入空间,JEPA 使模型能够捕捉不同数据在该空间中的潜在关系。具体来说,JEPA 在嵌入空间中进行对比学习,优化相似数据的嵌入距离,以增强对不同模态信息的理解。此外,在 JEPA 与环境的交互中,世界模型可以提供生成的样本和状态变化,JEPA 通过这些动态信息进一步调整其嵌入空间的结构和特征,使其能够在复杂环境中更有效地进行推理。这种交互机制不仅提高了对环境的理解,还增强了 JEPA 的适应性,使其在各种现实世界场景中表现出更高的鲁棒性和灵活性。

Vista:Vista [83] 是一款先进的世界模型,专注于解决自动驾驶领域中数据规模、帧率和分辨率的限制问题。它采用了一种新颖的损失函数来增强对运动实例和结构信息的学习,并设计了一种潜在替换方法,通过历史帧实现连贯的长期预测。Vista 在集成从高级意图到低级动作的各种控制方面也表现出色。经过大规模训练后,Vista 在多个数据集上的实验中优于大多数现有的视频生成模型。Vista 的训练框架包括两个阶段:高保真未来预测和多模态动作控制学习,能够在不同场景和相机角度下提供高分辨率预测,且质量损失较小。

基于世界模型的通信领域研究:世界模型在通信领域的应用对 6G 产生了革命性的影响。例如,Saad 等人 [100] 在研究中提出了下一代无线系统的革命性愿景 —— 原生通用人工智能(AGI)无线系统,其核心就是世界模型。原生 AGI 无线系统主要由三个基本组件构建而成:感知模块、世界模型和行动规划组件。这些组件共同构成了常识的四大支柱,包括通过横向泛化处理意外场景、捕捉直观物理现象、进行类比推理以及填补信息空白。该研究还探讨了如何进一步利用原生 AGI 网络来支持与人类用户和自主智能体应用相关的三个用例:用于下一代数字孪生的类比推理、认知虚拟形象的同步和弹性体验,以及以全息传输为例的脑级元宇宙体验。最后,他们提出了一系列建议,以激发对原生 AGI 系统的探索,并为 6G 之后的下一代无线系统提供路线图。

(三)通信领域大语言模型的训练

通信领域大语言模型的训练过程包括三个阶段:预训练、微调  和对齐。如表 4 所示,我们对这些阶段进行了全面的比较。在以下各节中,我们将详细讨论每个阶段。


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区

1.通信领域大语言模型的预训练:预训练阶段是大语言模型获取通信领域专业知识的基础。这个过程总结如下:大语言模型在大规模无标签数据集上进行预训练,以学习通用特征,提升在通信任务上的性能,减少对有标签数据的依赖,并提高知识迁移能力。关键的预训练方法是自监督学习和多任务学习:

自监督学习:与无监督学习不同,自监督学习使大语言模型能够通过数据变换或掩码生成监督信号,从数据本身学习特征。这个过程从数据预处理开始,然后创建代理任务以生成自监督信号。随后,模型使用这些内部表示进行训练,类似于有监督学习,但无需外部标签 [101]。

多任务学习:多任务学习通过同时学习多个相关任务来提高模型性能。任务之间共享模型参数,使大语言模型能够利用它们之间的关系,提高效率和泛化能力。这个过程包括定义任务、设计具有共享层和特定任务层的共享模型架构,并确保一致的数据预处理。在训练过程中,共享层捕捉共同特征,而特定任务层专注于各自的目标 [102]。

为了提高训练效率和模型性能,研究人员为预训练阶段提出了各种优化策略:

分布式训练:分布式训练技术涉及多个设备协同训练大语言模型,这需要有效的数据并行和模型并行策略来保证效率和稳定性。像 Megatron - lm 和 DeepSpeed 这样的框架就是为分布式训练而设计的,能够实现高效的数据和模型并行 [103]。

学习率调度:动态调整学习率在大语言模型训练过程中对寻找最优参数至关重要。典型的方法包括余弦退火和循环学习率策略 [104]。

梯度裁剪:这种优化技术通过在反向传播过程中缩放或截断梯度来缓解梯度爆炸和梯度消失问题。典型的方法包括绝对值裁剪和基于范数的裁剪,用于限制或减小过大的梯度 [105]。

2.通信领域大语言模型的微调:微调阶段使用特定的通信数据集对预训练的大语言模型进行优化,帮助它更好地适应通信任务。这个过程提高了模型在通信应用中的理解能力、泛化能力、准确性和效率。电信指令微调技术 [35] 通过自然语言中的电信指令训练大语言模型生成准确的输出。它使用指令与响应配对的方式来引导模型执行任务,增强其对新任务的理解和处理能力。指令数据集是基于电信文档,利用像 GPT - 4 和 LLaMA3 这样的先进大语言模型生成的,以满足各种任务的需求 [35]:

多项选择题回答:从一组选择题中选择所有正确答案。

开放式问题回答:根据标准、研究论文或专利,对与电信相关的问题提供开放式回答。

技术文档分类:将各种技术文档的文本分类到相关的工作组中,例如 3GPP 标准中的不同工作组。

数学建模:根据系统模型和问题陈述的文本描述,生成准确的数学方程,如信道模型。

代码生成:为电信中的特定任务或功能生成脚本或函数。

中间填充:根据上下文和目标功能完成不完整的脚本。

代码总结:总结给定脚本的核心功能,包括确定该脚本是否与电信相关。

代码分析:详细说明函数背后的操作逻辑,强调与电信相关的知识和原理。

基于设计好的指令微调数据集,通信领域大语言模型的微调步骤如下:

模型初始化:在创建指令微调数据集后,选择一个预训练的大语言模型作为初始模型,确保它具有强大的通信领域语言理解和生成能力。

模型调整和优化:使用指令 - 响应对数据集对预训练的大语言模型进行监督微调(SFT),学习指令和响应之间的关系,同时调整模型参数。然后,定义一个负对数似然损失函数来衡量模型生成的响应与预期响应之间的差异 [35]。

迭代训练:通过多次迭代,大语言模型学习根据指令生成高质量的响应。在处理每一批指令 - 响应对后,它使用损失函数更新参数。

最终评估和应用:训练完成后,对大语言模型进行评估,确保它在各项任务上都达到性能标准。然后在实际场景中进行测试,检验其实际可行性和可靠性,之后再部署到通信应用中。

大语言模型的微调技术有很多,包括低秩自适应(LoRA)、适配器(Adapters)、仅偏差微调(BitFit)和前缀微调(Prefix Tuning)等:

LoRA [106](低秩自适应):是一种高效的微调方法,它在保持模型性能的同时降低了计算和存储成本。通过将权重矩阵更新限制在低秩子空间中,减少了更新的参数数量,提高了微调效率且不影响任务性能。

  • Adapter[107]:是一种微调方法,在大语言模型的每一层添加小型可训练模块,同时保持预训练模型参数不变。这减少了需要更新的参数数量,节省了资源,并支持多任务学习,非常适合资源受限的场景。
  • BitFit [108](仅偏差微调):通过仅更新大语言模型中的偏差项,显著降低了计算和存储成本。它最小化了参数更新,保持了性能,并且能快速适应特定任务,无需对预训练模型进行复杂更改。
  • Prefix tuning[109]:通过向输入序列添加可训练的前缀向量来微调预训练的大语言模型,同时保持模型的原始权重不变。它通过仅更新前缀降低了计算和存储成本,是一种适应特定任务的高效方法。微调阶段帮助大语言模型更好地理解和执行通信指令,即便没有明确示例,也能提高其准确响应通信任务的能力,增强在实际应用中的有效性。

3.通信领域大语言模型的对齐:对齐调整是使大语言模型的响应更好地符合人类偏好的关键步骤。在通信数据集上进行监督微调后,大语言模型仍可能生成不理想的响应,例如重复、回复过短或内容不相关。关键的对齐技术可以解决这些问题。对齐调整通过引导大语言模型生成更准确、合理的响应来提高模型性能。人类反馈强化学习(RLHF)[36] 是一种对齐微调形式,它将人类反馈与传统强化学习相结合,以优化大语言模型的性能。RLHF 在通信任务中特别有用,因为在这些任务中决策和输出的可靠性至关重要,它使模型能够更高效地学习复杂任务。RLHF 的工作流程通常包括几个关键步骤:

  • 环境和智能体构建:开发一个基本的强化学习框架,包括环境(对齐任务)和智能体(大语言模型)。
  • 人类反馈收集:在智能体执行任务期间,通过交互方式收集人类专家的反馈,包括性能评估、建议或修正。
  • 奖励建模:将人类反馈转换为奖励信号,并使用机器学习训练一个奖励模型,以准确地将反馈解释并量化为适当的奖励值。
  • 强化训练:使用奖励模型的奖励信号通过强化学习训练智能体,更新其策略,逐步优化性能,使其更好地符合人类期望。

除了 RLHF,还有如人工智能反馈强化学习(RLAIF)、近端策略优化(PPO)和直接偏好优化(DPO)等关键对齐技术:

  • RLAIF[110]:是一种改进大语言模型行为的新方法。与传统的 RLHF 不同,RLAIF 使用人工智能生成的反馈来优化模型,减少了对大量人工标注数据集的需求。人工智能智能体(例如 GPT4)评估模型输出,并根据这些评估调整参数以提高性能。该过程包括两个步骤:首先,人工智能智能体通过评估模型输出生成反馈;其次,通过强化学习使用这些反馈来调整模型,逐步提高输出质量。RLAIF 更高效且可扩展,无需昂贵的人工数据。
  • PPO[111]:是一种强化学习方法,旨在在优化过程中稳定策略更新。与传统的策略梯度方法不同,PPO 使用 “替代目标函数” 并限制更新步长,传统方法需要复杂的计算和约束来防止策略发生大的变化。PPO 引入了一个惩罚项来控制策略变化的幅度,确保更新后的策略与原始策略接近。这种方法提高了策略性能,避免了昂贵的约束优化,并且具有更好的收敛性和鲁棒性。
  • DPO[112]:是一种强化学习技术,它直接优化模型输出以匹配用户或系统的偏好,而无需使用奖励模型。在训练过程中融入明确的偏好反馈,DPO 避免了传统方法的复杂性并提高了模型性能。在需要对模型行为进行精细控制和有效处理复杂偏好的任务中,它特别有效。

(四)通信领域大语言模型的评估

对通信领域大语言模型的评估至关重要,评估指标的研究不仅影响大语言模型的性能,还能更深入地了解其在通信相关任务中的优势与局限。选择高质量的电信数据集是有效评估的前提。例如,Maatouk 等人 [114] 提出了基准数据集 TeleQnA,用于评估大语言模型在电信领域的知识。该数据集包含从电信标准和研究文章等不同来源收集的 10,000 个问答对。此外,TeleQnA 引入了用于创建数据集的自动问题生成框架,该框架在各个阶段融入了人工输入以确保数据质量。

一旦选择了合适的基准数据集,就可以对通信领域的大语言模型进行评估。评估框架涵盖多个方面,包括通信问答、通信工具学习、通信建模和代码设计。

1.通信问答:通信问答的评估 [35] 旨在评估大语言模型(如 GPT - 4)理解和处理通信相关文档的能力。该任务包括从通信主题(包括技术、协议和网络架构等)的文献、专利和书籍中生成选择题和开放式问题。通过将大语言模型的回答与标准答案进行比较来衡量其性能,尤其关注其对通信知识的理解和应用。评估过程从选择相关文档开始,接着进行数据预处理。大语言模型根据处理后的内容生成问题,随后对生成的答案进行准确性验证,可以通过人工或与标准答案进行自动比较。通过分析大语言模型的回答与正确答案的匹配程度来评估其性能,重点关注准确性以及理解和推理能力。使用精确率、召回率和 F1 分数等指标来衡量答案的质量,并评估模型在通信问答任务中的整体有效性。

2.通信工具学习:工具学习的评估 [115] 考察大语言模型是否能够有效地选择和利用通信工具(如现有算法和代码)来解决实际任务。该能力在两个关键领域进行评估:工具选择,指模型通过推理选择合适工具的能力;工具使用,涉及利用这些工具提高任务性能,例如将现有的信道模型代码与大语言模型集成以进行信道预测,从而提升通信系统的性能。评估强调两个主要方面:模型选择正确工具的能力以及使用工具进行操作的能力。这包括评估模型使用单个工具的性能以及组合多个工具的有效性,如在 ToolAlpaca [116] 等基准测试中所示。这些基准测试评估大语言模型在多工具使用方面的整体熟练程度和局限性。从这些评估中获得的见解突出了模型在工具选择和应用方面的优势和挑战,为未来通信相关任务的优化工作提供指导。

3.通信建模:通信建模的评估侧重于评估大语言模型表示和解决与通信系统相关数学问题的能力 [35]。重点关注诸如方程补全等任务,在这些任务中,关键的数学表达式被隐藏,基于物理知识的大语言模型必须准确预测缺失的部分。评估从选择相关的数学模型和方程开始,以确保任务既具有挑战性又能代表现实世界的通信系统。通过将大语言模型的预测与标准答案进行比较来评估其性能,尤其关注准确性和方程的一致性。除了精度之外,评估还考察模型对复杂通信原理的推理深度和理解程度。通过将准确性度量与推理能力评估相结合,这种评估能够全面了解大语言模型在处理通信建模任务方面的有效性。

4.通信代码设计:通信代码设计的评估 [35] 旨在评估大语言模型使用 C、C++、Python 和 Matlab 等编程语言生成、完成和分析通信相关代码的能力。评估任务包括代码生成、代码补全和代码分析,测试模型在为通信任务创建脚本、完成部分代码以及提供准确的总结或错误分析方面的熟练程度。评估从呈现编程场景开始,要求大语言模型(例如 OpenAI Codex)为信号处理、网络协议实现或数据传输算法等任务生成代码。随后,对大语言模型进行代码补全测试,要求它预测并填充缺失的代码段,确保逻辑一致性和功能正确性。此外,大语言模型还需对给定代码进行分析,解释其功能、识别错误并提出优化建议。通过将生成的代码与标准答案进行比较来衡量性能,重点关注准确性、完整性和逻辑正确性。还会评估模型分析代码的能力,这反映了它对通信特定编程概念的理解。

(五)大语言模型的优化

为了进一步提高这些大语言模型的性能和适应性,研究人员提出了多种优化技术,如思维链(CoT)、检索增强生成(RAG)和智能体系统等。以下将详细介绍这些优化技术。

1.思维链:思维链是谷歌研究团队在 2022 年提出的一种推理技术 [32]。其主要特点是能够将复杂问题分解为一系列逻辑推理步骤,并以线性和结构化的方式解决问题。它擅长处理需要多步推理和综合分析的任务,特别适用于需要模拟人类思维过程的场景,如复杂决策和问题解决。思维链方法的工作流程如下:

  • 任务输入:模型接收一个复杂的通信任务或问题,该问题可能以自然语言描述、数学方程或逻辑推理题的形式呈现。基于问题的性质,模型确定合适的推理路径,并整合相关的上下文信息以支持推理过程。
  • 逻辑推理:模型将问题分解为一系列逻辑推理步骤,以结构化的方式逐步进行推理。每一步的输出都依赖于前一步的结果,确保推理过程的连贯性和系统性。
  • 决策输出:模型根据推理过程得出逻辑一致的答案或决策。采用验证机制来验证结果的正确性和可靠性,确保其准确性和可信度。
  • 基于思维链的通信领域研究:随着人工智能领域的快速发展,思维链技术作为一种创新的推理框架逐渐受到广泛关注。在通信领域,思维链有助于模型更高效地处理复杂的推理和决策任务,通过模拟分层和结构化的推理过程。例如,Du 等人 [117] 应用思维链技术帮助大语言模型在现场可编程门阵列(FPGA)开发中进行多步推理,解决快速傅里叶变换(FFT)实现等复杂任务。思维链提示使大语言模型能够逐步分解问题并进行计算,提高了生成的硬件描述语言(HDL)代码的准确性。Zou 等人 [118] 在生成式人工智能网络(GenAINet)框架中使用思维链技术,帮助分布式生成式人工智能智能体进行协作推理。智能体使用思维链提示分解复杂任务,并从其他智能体获取知识,从而提高决策效率并减少通信资源消耗。Shao 等人 [119] 在无线大语言模型(WirelessLLM)框架中使用思维链技术来提高大语言模型的推理能力,帮助模型逐步处理无线通信中的复杂任务,如功率分配和频谱感知。这种方法有效地增强了大语言模型在多模态数据环境中的任务执行能力。

2.检索增强生成:检索增强生成是 Facebook 在 2020 年提出的一种集成检索和生成的技术 [120]。检索增强生成结合检索和生成两个步骤,通过检索相关文档来增强大语言模型的回答能力。检索增强生成可以利用检索模块获取最新且最相关的信息,同时保持大语言模型强大的语言能力,从而提高答案的准确性和相关性。它在信息丰富但需要从大量文本中获取知识的任务中表现出色,如回答问题、生成详细指令或进行复杂的文本生成。检索增强生成技术的工作流程如下:

  • 信息检索:从外部知识库中检索与输入内容相关的文档。通过使用信息检索技术,大语言模型可以从知识库中筛选出与输入问题最匹配的文档。
  • 信息融合:将检索到的文档与输入问题拼接,作为大语言模型的新输入。在信息融合阶段,大语言模型通过编码器处理文档和输入内容,将检索到的知识与问题紧密结合,增强模型对问题的理解和生成能力。
  • 生成输出:将融合后的输入传递给大语言模型,大语言模型不仅依赖原始输入,还利用检索到的文档信息提供更丰富、准确的答案。生成过程确保答案连贯且与上下文相关,从而保证输出的合理性和有效性。
  • 基于检索增强生成的通信领域研究:在通信领域,检索增强生成技术展现出了出色的应用潜力。例如,Bornea 等人 [121] 提出了 Telco - RAG,这是一个针对 3GPP 文档设计的开源检索增强生成系统,它提高了大语言模型在电信领域的性能。Tang 等人 [122] 提出了一种针对 6G 用例的自动检索增强生成框架,利用大语言模型自动生成网络服务规范,特别是在开放无线接入网络(ORAN)环境中。通过这种方法,业务创新者可以在无需深入了解复杂 6G 标准的情况下,快速且经济高效地评估和生成所需的通信规范,极大地促进了开放 6G 接入环境中的创新和应用部署。Huang 等人 [123] 提出了一种基于 6G 网络的检索增强生成服务部署框架,旨在通过将大语言模型与外部知识库相结合来提高生成服务的质量。该文章探讨了通过边缘计算扩展检索增强生成服务的可行性,并提出了在多模态数据融合、知识库动态部署、服务定制和用户交互方面的技术挑战,为未来 6G 网络中的检索增强生成服务提供了创新方向。Xu 等人 [124] 提出将大多模态模型作为原生人工智能无线系统的通用基础模型。该框架结合多模态感知、因果推理和检索增强生成来处理跨层网络任务,并通过实验验证了大多模态模型在减少幻觉以及提高数学和逻辑推理能力方面的有效性。Yilma 等人 [125] 引入了 TelecomRAG 框架,该框架将检索增强生成与大语言模型技术相结合,帮助电信工程师解析复杂的 3GPP 标准文档并生成准确且可验证的响应。通过检索 3GPP Release 16 和 Release 18 的标准文档,该框架为电信领域提供了比普通大语言模型更准确、技术深度更强的解决方案。

3.智能体系统:智能体系统是一个由基于大语言模型的智能体组成的框架,这些智能体感知环境并协作以实现特定目标。智能体系统的主要特点包括自主性、适应性和交互性。它可以根据环境变化调整行为,并与其他智能体或环境进行交互,以优化决策和任务执行。智能体系统擅长解决需要动态响应、复杂决策和任务优化的通信问题。通过模拟人类或生物系统的行为,智能体可以在动态变化的通信环境中高效地完成任务。基于大语言模型的智能体系统的工作流程如下:

  • 任务理解与规划:智能体系统解释输入指令,提取相关上下文,将复杂任务分解为较小的、可管理的子任务。然后制定一个逻辑计划来执行这些子任务。
  • 执行与适应:智能体执行计划的行动,利用大语言模型完成诸如生成内容、解决问题或与外部系统交互等任务。它持续监控进展,并根据环境变化或意外结果动态调整。
  • 验证与反馈:智能体系统验证结果以确保准确性和一致性,提供可靠的输出。过程中的反馈被整合到系统中,实现迭代改进并提高未来任务的性能。
  • 基于智能体的通信领域研究:通过利用其自主性、适应性和交互性,智能体系统有效地解决了复杂任务和问题,在通信领域展现出了巨大的潜力。例如,Tong 等人 [126] 提出了 WirelessAgent 框架,该框架以大语言模型为核心驱动力,通过感知、记忆、规划和行动四个模块构建了一个多智能体系统。WirelessAgent 框架旨在解决无线网络中日益复杂的管理问题,特别是在即将到来的 6G 时代,传统优化方法无法应对复杂且动态变化的网络需求。通过多个智能体之间的协作与通信,该框架可以自主处理多模态数据、执行复杂任务并做出自适应决策。Xu 等人 [79] 提出了一种基于 6G 网络的大语言模型智能体分裂学习系统,以解决由于移动设备计算能力有限导致的本地大语言模型部署和执行效率低下的问题。该系统实现了移动设备与边缘服务器之间的协作,通过感知、语义对齐和上下文绑定模块的分工来完成用户与智能体之间的交互任务。此外,通过引入一种新颖的模型缓存算法,该系统提高了模型利用率,从而降低了移动和边缘大语言模型智能体协作的网络成本。Yang 等人 [127] 提出了一种基于强化学习的智能体驱动生成式语义通信(A - GSC)框架,以应对 6G 时代智能交通系统和数字孪生远程监控中大数据量和频繁更新的挑战。与现有的主要关注语义提取或采样的语义通信研究不同,A - GSC 框架成功地将源信息的内在属性与任务的上下文信息相结合。此外,该框架引入了生成式人工智能,实现了语义编码器和解码器的自主设计。

(六)总结与经验教训

总结:本章全面概述了通信领域大语言模型的关键架构、分类、训练、评估和优化。首先介绍了大语言模型的关键架构;接着,提出了一个更详细的通信领域大语言模型分类系统;之后,讨论了通信领域大语言模型的训练过程,总结了从预训练、微调 到对齐的完整工作流程,并深入解释了这三种技术中的每一种;然后介绍了通信领域大语言模型的评估方法,全面总结了用于评估大语言模型在通信中性能的标准和指标;最后,探索了通信领域大语言模型的各种优化技术。本章为大语言模型的应用奠定了坚实的基础,并为其未来发展提供了明确的方向。

经验教训:尽管在通信领域大语言模型的构建和优化方面取得了进展,但仍有一些经验教训值得总结。当前主流架构,如 Transformer [130]、扩散模型和 Mamba,展示出了出色的建模和推理能力。然而,它们在资源受限环境、多模态任务和实时通信应用中仍然面临重大困难。这些挑战包括计算复杂度高、收敛速度慢以及训练、评估和部署方面的困难关于优化策略,虽然像思维链、检索增强生成和智能体系统等方法有效地增强了模型的推理和任务适应性,但在稳定性、一致性和效率方面仍然存在限制。

三、大语言模型在物理层设计中的应用

随着无线通信技术的不断发展,尤其是对 6G 网络的需求日益增长,物理层设计面临着越来越复杂的挑战。为了应对这些挑战,大语言模型和生成式人工智能模型逐渐成为物理层设计的关键工具。


面向未来通信的大语言模型综述:基础、应用与挑战-AI.x社区

(一)基于大语言模型的信道和波束预测

随着无线通信系统的快速发展,特别是在 5G 向 6G 网络演进的背景下,对信道和波束预测的准确性和效率要求大幅提高。传统方法在处理现代网络的复杂和动态特性时往往存在不足。近年来,大语言模型的突破为解决这些挑战提供了新的途径。例如,Fan 等人 [131] 提出了 CSILLM,这是一种用于大规模 MIMO 系统下行链路信道预测的方法。通过将无线数据与自然语言处理任务对齐,它利用大语言模型对可变长度的历史序列进行建模,在高动态环境下的多步预测中表现出色。Liu 等人 [101] 提出了 LLM4CP,一种使用预训练大语言模型的信道预测方法。它结合了信道特征模块和跨模态知识转移,用于准确的时分双工(TDD)/ 频分双工(FDD)预测,降低了训练成本,具有很强的泛化性和效率。Sheng 等人 [132] 研究了毫米波通信中的波束预测,使用大语言模型将时间序列数据转换为文本,并通过提示前缀技术增强上下文信息。与传统的长短期记忆网络(LSTM)模型相比,这种方法在高动态环境中表现出更强的鲁棒性和泛化能力。Akrout 等人 [133] 回顾了深度学习在无线物理层的应用,强调了在准确性、泛化性、压缩和延迟之间的权衡。他们指出,过于关注准确性往往会由于泛化性差而限制模型在复杂通信场景中的性能。通过分析端到端通信系统的解码任务,揭示了这种权衡对模型实际应用的重要影响,特别是当大语言模型用于无线通信时,压缩和延迟之间的平衡成为关键因素。

(二)基于大语言模型的自动化物理层设计

随着无线网络规模和复杂性的不断增加,对智能自动化物理层设计的需求日益迫切。大语言模型和生成式人工智能技术正逐渐成为满足这一需求的强大工具,为构建自适应和高效的通信系统提供了新的可能性。例如,Xiao 等人 [134] 提出了一种基于大语言模型的 6G 任务导向物理层自动化智能体(6G LLM agents),引入大语言模型作为智能协作者,通过多模态感知和领域知识增强对动态任务的理解和规划能力。使用两阶段训练框架,该智能体有效地执行协议问答和物理层任务分解。Wang 等人 [135] 提出了一种使用生成式人工智能智能体的物理层设计框架,将大语言模型与检索增强生成技术相结合,在信号处理和分析方面展示出强大的潜力。生成式人工智能智能体能够在不同环境中快速生成复杂的信道模型,加速了下一代 MIMO 信道建模和估计的研究。

(三)总结与经验教训

总结:本章讨论了大语言模型在物理层设计中的应用,展示了它们在信道估计、任务分解、信号处理等方面的潜力。大语言模型可以通过其强大的推理能力和多任务学习显著提高物理层设计的智能化和自动化水平 [136]。大语言模型通过对复杂数据分布的准确建模,改进了信道估计和盲信道均衡。大语言模型为物理层设计提供了创新的思路和方法,有望为未来无线通信系统的性能提升和系统优化带来突破 [137]。

经验教训:从本章中,我们学到了几个重要的经验教训。首先,大语言模型在物理层优化中的可解释性有限 [137]。尽管它们可以生成看似有效的优化策略,但往往缺乏严格的数学分析或理论保证,这限制了它们在高可靠性通信场景中的应用。其次,大语言模型的训练和推理严重依赖高质量的标注数据,然而物理层数据的获取和标注成本高昂,使得基于数据驱动的大语言模型在实际部署中难以扩展。因此,提高可解释性和解决数据获取挑战是未来研究的关键方向。

四、大语言模型在资源分配与优化中的应用

资源分配和优化是通信网络中复杂且关键的问题。随着大语言模型的发展,它们在这一领域的应用逐渐展现出巨大的潜力。以下,我们将讨论大语言模型在计算资源分配、频谱资源分配和能源资源优化方面的应用。

(一)计算资源分配

随着通信网络变得越来越复杂,用户对网络服务的要求也越来越高。如何在有限的计算资源下为用户提供高质量的通信服务是一个重大挑战。基于生成式人工智能模型和大语言模型的计算资源分配研究是未来的一个重要研究方向。例如,Du 等人 [138] 引入了 AGOD 算法,该算法使用扩散模型从高斯噪声中生成最优的人工智能生成内容服务提供商(ASP)选择决策。结合深度强化学习形成 D2SAC 算法,提高了 ASP 选择效率,优化了用户计算资源分配。此外,Du 等人 [139] 提出了一种基于专家混合(MoE)框架和大语言模型的网络优化方法,利用大语言模型的推理能力管理专家选择和决策加权,实现了高效的资源分配,降低了能源和实施成本。在迷宫导航和网络服务提供商(NSP)效用任务上的测试证明了其在复杂网络优化中的有效性。

(二)频谱资源分配

在当前的通信系统中,频谱资源分配是实现高效可靠数据传输的重要组成部分。随着移动通信技术的快速发展,特别是在 5G 和即将到来的 6G 时代,对频谱资源的需求急剧增加,而可用频谱资源非常有限。为了提高频谱利用率,满足用户对高速、低延迟通信的需求,研究人员探索了基于大语言模型和生成式人工智能模型的频谱资源分配方案。例如,Zhang 等人 [140] 提出了一种基于生成式人工智能智能体的框架,使用大语言模型和检索增强生成通过交互式对话构建准确的系统模型。为了优化这些模型,他们引入了一种结合专家网络和近端策略优化(PPO)的 MoE PPO 方法,实现了协同决策,提高了频谱效率和通信质量。此外,Du 等人 [141] 提出了一种基于生成式人工智能和深度强化学习的框架,用于优化 802.11ax Wi-Fi 中的计算卸载和频谱分配。将生成扩散模型与 TD3 算法相结合,并使用匈牙利算法进行资源单元(RU)分配,在仿真中提高了带宽利用率、降低了延迟并减少了能源消耗。

(三)能源资源优化

能源资源优化在通信网络中同样至关重要,特别是在移动通信和物联网等场景中。传统的能源优化方法通常基于启发式规则或简单算法,在复杂和动态的环境中难以实现最优结果。研究人员正在积极探索基于生成式人工智能模型和大语言模型的能源资源优化方案,以实现无线通信中的低能耗和高效率。例如,Xu 等人 [142] 提出了一种基于生成式人工智能的移动多媒体网络框架,用于动态自适应流传输、智能缓存和能源效率优化,增强了多媒体内容分发。该框架通过考虑生成式人工智能模型的价值和其他指标,优化了资源利用并降低了能源消耗。Du 等人 [143] 提出了一种使用人工智能生成内容服务的无线边缘网络框架,用于优化能源分配并改善用户体验。通过使用深度强化学习算法动态选择最优的 ASP,该框架减少了任务过载和重传,提高了能源效率和服务质量。仿真结果显示能源消耗降低,内容质量和传输效率提高。

(四)总结与经验教训

总结:本章总结了大语言模型在计算和频谱资源分配以及能源资源优化方面的应用。大语言模型可以通过对网络需求的实时预测和分析,智能地分配资源 [144],还可以通过学习通信网络中的能源消耗模式,优化能源使用策略 [145]。

经验教训:从本章中,我们学到了几个重要的经验教训。首先,虽然大语言模型可以提高计算资源分配的优化效率,但在资源受限和动态的通信环境中,它们的泛化能力有限,可能导致次优甚至不可行的分配策略 [146]。在频谱资源分配方面,尽管大语言模型可以帮助提高频谱利用效率,但它们的推理过程往往依赖于复杂的专家网络和调度机制组合,导致计算开销大,难以满足实时性要求。关于能源资源优化,大语言模型能够通过智能缓存和流量控制降低能源消耗。然而,它们在生成动态调度策略时的稳定性和可解释性仍然不足。因此,提高大语言模型在资源分配和优化中的泛化能力,以及降低其计算复杂度,是未来研究需要解决的关键挑战。

五、大语言模型在网络设计与管理中的应用

大语言模型在网络设计和管理中起着至关重要的作用。通过强大的生成学习能力,它们可以对网络流量、用户行为和系统性能进行详细分析和预测,为现有网络赋能。

(一)网络设计

智能网络设计是确保系统高效运行和提供高质量服务的关键。目前,大语言模型凭借其强大的生成和数据处理能力,在网络设计中得到了广泛应用。例如,Huang 等人 [42] 提出了一种使用生成式人工智能和强化学习的人工智能生成网络(AIGN)框架,用于自动化网络设计。它使用扩散模型学习设计意图,并在多种约束条件下生成定制化解决方案,实现了智能网络设计。Zou 等人 [147] 提出了一种无线多智能体生成式人工智能网络,利用设备上的大语言模型实现自主组网。多智能体生成式人工智能的集成实现了网络模型设计、推理、多模态数据处理和资源管理。Huang 等人 [42] 提出了 ChatNet,这是一个域自适应网络大语言模型框架,使用自然语言进行智能网络设计、诊断、配置和安全管理。ChatNet 通过对开源大语言模型进行预训练和微调,使其能够理解网络语言并访问外部工具(如模拟器、搜索引擎和求解器),实现了任务自动化。

(二)网络管理

传统的数据处理方法难以满足 6G 网络对海量数据、复杂任务和实时性能的要求,大语言模型的出现为解决这些问题提供了新的思路。例如,Wang 等人 [148] 提出了 NetLM,这是一种使用 ChatGPT 进行网络管理和优化的网络人工智能架构。基于大语言模型,NetLM 分析网络数据包序列和动态,通过多模态表示学习统一网络指标、流量和文本数据,增强了数据处理能力,有助于理解 6G 网络中的网络状态、用户意图和复杂模式。Dandoush 等人 [149] 提出了一种将大语言模型与多智能体系统相结合的网络切片管理框架。网络切片允许在共享基础设施上创建虚拟网络,但当前方法难以满足复杂的服务需求。该框架使用大语言模型将用户意图转换为技术要求,并使用多智能体系统进行跨域协作,实现了高效的切片创建和管理。它还解决了数据获取、资源需求和安全等挑战。Yue 等人 [150] 提出了一种支持大语言模型的 6G 网络架构,通过从异构数据中提取见解来提高管理效率。大语言模型实现了操作、维护和推理任务的自动化,减少了人工干预。通过边缘计算,大语言模型在高并发场景中处理数据,提高了性能和资源调度能力。该研究还解决了 6G 网络中数据治理和计算资源需求等挑战。

(三)总结与经验教训

总结:本章总结了大语言模型在网络设计和管理中的应用,包括网络架构设计的优化和网络切片的管理。大语言模型利用其强大的数据处理和生成能力,高效处理 6G 网络中的大量数据,实现了智能网络设计和管理 [151][152]。

经验教训:从本章中,我们学到了几个重要的经验教训。首先,在网络设计方面,尽管大语言模型可以通过学习网络意图自动生成满足多种约束条件的定制化网络解决方案,但确保设计在多约束条件下的可行性和稳定性仍然是一个重大挑战。此外,在网络管理方面,大语言模型可以增强网络状态分析、用户意图理解和数据模式学习的能力,但在处理大规模异构数据和满足实时性能要求方面仍然存在困难 [42]。

六、大语言模型在边缘智能中的应用

大语言模型在提升边缘智能方面具有广泛的应用场景。以下,我们将从三个方面讨论大语言模型在边缘智能中的应用。

(一)大语言模型的边缘训练与应用

边缘大语言模型因其易于部署且保留了强大的数据处理能力,在边缘设备中得到了广泛应用。例如,Yu 等人 [153] 提出的 Edge - LLM 框架解决了在边缘设备上适配大语言模型时的计算和内存开销问题。它使用分层统一压缩(LUC)技术优化模型压缩,通过自适应层调整减少内存使用,并引入硬件调度来处理不规则的计算模式。Zhang 等人 [154] 提出的 EdgeShard 框架通过模型分片将大语言模型分布在多个设备上。它采用动态规划算法优化设备选择和模型分区,平衡了推理延迟和吞吐量。实验结果表明,该框架将延迟降低了 50%,吞吐量提高了一倍,为大语言模型在协作边缘计算中的推理提供了高效解决方案。Qu 等人 [48] 回顾了大语言模型与移动边缘智能(MEI)的集成,并提出了 MEI4LLM 框架,以提高在边缘环境中的部署效率。该论文涵盖了缓存、分布式训练和推理等技术,并讨论了绿色计算和安全边缘人工智能等未来方向。它强调了边缘智能对于低延迟和隐私敏感任务的重要性,为大语言模型的更广泛应用提供了理论基础。Xu 等人 [155] 探索了在边缘网络中对大语言模型和基础模型进行联邦微调,重点关注内存带宽限制。他们使用能源效率来衡量计算效率,并与模型浮点运算利用率(MFU)进行比较。结果表明,能源效率在实时监测中表现更好,在嵌入式设备上使用较小的批量大小可实现最佳效率。此外,Zhao 等人 [156] 提出了一种结合边缘和终端协作的大语言模型部署框架,在终端上使用串行推理,在边缘服务器上使用并行推理。这减少了延迟并优化了能源消耗,提高了不同网络条件下的模型性能,为大语言模型在无线网络中的部署提供了高效解决方案。Khoshsirat 等人 [157] 研究了在能源受限的边缘设备上进行去中心化大语言模型推理的应用,并提出了一种集成能量收集的推理框架,使分布式设备能够协作执行模型推理任务。Lin 等人 [158] 探索了在 6G 边缘环境中部署大语言模型,通过分裂学习、量化和参数高效微调解决计算负载问题。该论文提出了针对边缘环境的大语言模型训练和推理策略,为 6G 网络中的分布式人工智能提供了研究路径。Rong 等人 [159] 提出了 LSGLLM - E 架构用于大规模交通流预测,解决了道路网络中的时空相关性问题。该方法通过将网络分解为子网并使用路侧单元(RSU)作为边缘节点进行计算,减轻了中央云的压力。LSGLLM 模型捕捉了动态的时空特征,克服了现有大语言模型在大规模道路网络预测中的局限性。

(二)边缘资源调度与大语言模型的结合

边缘设备在计算能力和存储方面存在限制,而大语言模型需要高效的计算、实时响应和低延迟的数据传输。这带来了两个主要挑战:(1)如何有效地分配资源,确保大语言模型在边缘设备上的高效运行;(2)如何利用大语言模型强大的优化能力,设计改进的边缘资源调度策略。为了解决这些问题,人们提出了各种解决方案,集成了任务卸载、计算和存储资源优化,以提高边缘设备在人工智能任务中的性能。例如,Friha 等人 [160] 分析了在资源受限环境中基于大语言模型的边缘智能优化,并提出了应对计算和存储限制的策略。模型压缩、内存管理和分布式计算等技术使大语言模型能够在边缘设备上高效运行。这些优化提高了部署效率,并扩展了大语言模型在个性化医疗和自动化等领域的应用。Dong 等人 [39] 提出了 LAMBO 框架用于基于大语言模型的移动边缘计算(MEC)卸载,解决了传统深度卸载架构中的挑战,如异构约束和局部感知问题。该框架使用输入嵌入(IE)模型将任务数据和资源约束转换为嵌入,使用非对称编码器 - 解码器(AED)模型提取特征并生成卸载决策和资源分配。Lai 等人 [161] 提出了 GMEN 框架,以增强 6G 时代移动边缘网络的智能性和效率。通过将生成式人工智能与边缘网络相结合,并使用模型分割等方法,该框架卸载人工智能任务以减轻网络负担。应用 Stackelberg 博弈模型优化资源分配,鼓励边缘设备贡献计算资源,降低了开销。

(三)大语言模型的联邦学习

联邦学习通过在本地训练模型来保护隐私并减少对集中式资源的依赖,但传统的小模型能力有限。大语言模型的出现,凭借其强大的表示能力,使联邦学习能够在无需集中式数据的情况下处理更复杂的任务,显著提高了个性化服务和预测准确性。例如,Xu 等人 [162] 提出了 FwdLLM,这是一种联邦学习协议,使用无反向传播的训练方法在移动设备上增强大语言模型。FwdLLM 结合了 LoRA 和适配器等高效参数微调技术来分配计算负载,提高了内存和时间效率,使普通商业移动设备能够进行大语言模型的微调。Peng 等人 [163] 提出了一种使用生成式人工智能的个性化语义通信系统,通过个性化局部蒸馏(PLD)和自适应全局剪枝(AGP)提高性能。PLD 允许设备根据本地资源选择模型,并将知识蒸馏到更简单的模型中用于联邦学习。AGP 根据通信环境对全局模型进行剪枝,降低了能源消耗并提高了效率通过这些创新方法,大语言模型在个性化联邦学习中的应用展现出显著优势。此外,Jiang 等人 [113] 提出了两种个性化无线联邦微调方法:个性化联邦指令调整(PFIT)和个性化联邦任务调整(PFTT)。PFIT 使用带有人类反馈的强化学习进行个性化处理,而 PFTT 结合全局适配器和 LoRA 来减少通信开销并加速微调,解决了无线网络中隐私、数据异构性和高通信成本等挑战。

(四)总结与经验教训

总结:本章总结了大语言模型在边缘智能中的应用,包括大语言模型的边缘训练与应用、资源管理与调度,以及大语言模型的联邦学习。通过大语言模型的边缘训练与应用,可以有效提升大语言模型在边缘设备上的性能。资源管理与调度能够通过大语言模型实现动态资源分配 [164]。大语言模型使联邦学习能够在无集中式数据的情况下处理更复杂的任务,提高了预测准确性并增强了个性化服务 [165]。

经验教训:从本章中,我们学到了几个重要的经验教训。首先,在边缘设备上训练和部署大语言模型时,有限的计算和内存资源对其广泛应用构成了重大障碍 [166]。在对延迟敏感的应用中,这个问题尤为关键,如何有效减少模型参数和优化计算模式仍是亟待进一步研究的重要领域。此外,大语言模型的联邦学习面临着资源有限、数据异构性和个性化等挑战,未来的研究将集中在高效协作、稳健优化和隐私保护个性化方面。

七、大语言模型在语义通信中的应用

通信技术的快速发展不断推动人类社会向更高水平的智能化迈进。特别是大语言模型的出现,深刻地革新了通信系统的设计与优化,将通信范式从传统的数据通信转变为语义通信。这种转变不仅涵盖信号传输,还延伸到信息理解层面,开启了广泛的潜在应用场景。以下各节将概述大语言模型在语义通信中的相关工作。

(一)基于大语言模型的语义通信系统

大语言模型凭借其强大的自然语言理解和生成能力,能够在复杂的通信环境中进行语义层面的分析和处理,显著提升语义通信系统的智能化水平。尤其在未来的 6G 网络等场景中,大语言模型可以支持更高效、灵活的语义通信架构,推动语义通信的智能化应用。例如,Wang 等人 [167] 提出了一种基于大语言模型的语义通信系统框架,将其直接应用于物理层的编码和解码。该系统利用大语言模型训练和无监督预训练构建语义知识库,使用波束搜索算法优化解码并降低复杂度,且无需对现有的大语言模型进行额外的重新训练或微调。Jiang 等人 [168] 提出了一种大型生成模型辅助的人脸语义通信系统(LGM - TSC),以应对人脸视频通信中的挑战,包括带宽利用率低、语义模糊以及体验质量(QoE)下降等问题。该系统在发送端引入了基于 FunASR 模型的生成语义提取器(GSE),将语义稀疏的人脸视频转换为高信息密度的文本。基于大语言模型的私有知识库(KB)用于语义消歧和校正,并辅以联合知识库语义信道编码方案。在接收端,使用 BERTVITS2 和 SadTalker 模型的生成语义重建器(GSR)将文本转换回与用户语音语调匹配的高 QoE 人脸视频。Chen 等人 [169] 提出了一种基于大语言模型的新型语义通信框架,以解决水下通信中的挑战,包括语义信息不匹配以及准确识别和传输关键信息的困难。该框架利用视觉大语言模型对水下图像数据进行语义压缩和优先级排序,有选择地传输高优先级信息,同时对不太重要的区域应用更高的压缩率。在接收端,基于大语言模型的恢复机制与全局视觉控制网络和关键区域控制网络协同工作,重建图像,提高了通信效率和鲁棒性。该系统将整体数据大小减小到原始数据的 0.8%。

此外,Jiang 等人 [77] 提出了一种在语义通信系统中跨有效性、语义和物理层集成基础模型(包括大语言模型)的方法。这种集成利用通用知识改变系统设计,从而改进语义提取和重建。该研究还探索了使用紧凑型模型来平衡性能和复杂度,并比较了使用基础模型的三种方法。研究强调需要进一步分析基础模型对计算和内存复杂度的影响,以及该领域中需要关注的未解决问题。Kalita 等人 [170] 提出了一个在网络边缘集成大语言模型与语义通信的框架,以实现物联网网络中的高效通信。该框架利用大语言模型在数十亿参数的多样化数据集上进行训练的能力,在当前技术接近香农极限的场景中提高通信性能。该系统设计用于在边缘等近源计算技术上运行,从而提高物联网环境中的通信效率。Wang 等人 [78] 提出了一种使用大语言模型的通用端到端学习语义通信模型,以增强下一代通信系统的性能。该模型结合了子词级标记化、基于梯度的速率适配器以匹配任何信道编码器 / 解码器的速率要求,以及用于纳入私有背景知识的微调。

(二)基于其他大语言模型的语义通信系统

除了大语言模型,基于其他大语言模型的语义通信系统研究在推进语义通信系统智能化方面也发挥着关键作用 [171][172]。例如,Jiang 等人 [173] 提出了一种基于视觉语言模型(VLM)的新型跨模态语义通信系统(VLM - CSC),以应对图像语义通信中的挑战,如动态环境中语义密度低、灾难性遗忘以及信噪比不确定等问题。VLM - CSC 系统包括三个关键组件:(1)跨模态知识库,在发送端从语义稀疏的图像中提取高密度文本语义,并在接收端重建原始图像,以缓解带宽压力;(2)内存增强编码器和解码器,采用混合长短期记忆机制,防止在动态环境中发生灾难性遗忘;(3)噪声注意力模块,根据信噪比调整语义和信道编码,以确保鲁棒性。Zhang 等人 [174] 提出了 “Plan A - Plan B” 框架,使用多模态大语言模型(MLLMs)解决图像语义通信中的分布外(OOD)问题。它利用多模态大语言模型的泛化能力在语义编码过程中辅助传统模型。贝叶斯优化方案通过过滤无关词汇并使用上下文相似性作为先验知识来重塑多模态大语言模型的分布。在接收端,“生成 - 批判” 框架提高了重建的可靠性,解决了分布外问题并增强了语义压缩。Jiang 等人 [56] 提出了 GAM - 3DSC 系统,以应对 3D 场景通信中 3D 语义提取、冗余和不确定信道估计等挑战。通过引入大视觉模型,该系统实现了用户驱动的 3D 语义提取、自适应多视图图像压缩以及 CSI 估计和优化,用于有效的面向目标的 3D 场景传输。Xie 等人 [175] 提出了一种通过引入记忆模块集成大型模型的新语义通信架构。这增强了语义和上下文理解,提高了传输效率,并解决了频谱稀缺问题。

Yang 等人 [176] 提出了 “M2GSC” 框架,用于多用户 6G 系统中的生成式语义通信。它使用多模态大语言模型作为共享知识库(SKB)进行任务分解、语义表示标准化和翻译,实现标准化编码和个性化解码。该框架还探索了将共享知识库升级为闭环智能体、自适应编码卸载以及多用户资源管理。Do 等人 [177] 提出了一种基于 mamba 的多用户多模态深度学习语义通信系统,以提高资源受限网络中的效率。通过用 mamba 架构取代 Transformer,该系统提高了性能并降低了延迟。它引入了一种新的语义相似性度量和两阶段训练算法,以优化基于比特的度量和语义相似性。Jiang 等人 [76] 提出了一种基于大语言模型的多模态语义通信(LAM - MSC)框架,以应对多模态语义通信中的挑战,如数据异质性、语义模糊以及传输过程中的信号失真。该框架包括基于掩码语言模型(MLM)的多模态对齐(MMA),有助于在保持语义一致性的同时实现多模态与单模态数据的转换。它还引入了基于大语言模型的个性化知识库(PKB),用于个性化语义提取和恢复,从而解决语义模糊问题。此外,基于条件生成对抗网络(GANs)的信道估计方法用于估计无线 CSI,减轻衰落信道对语义通信的影响。

(三)总结与经验教训

总结:本章总结了大语言模型在语义通信中的应用,包括大语言模型和其他大语言模型的应用。大语言模型强大的数据处理能力可以有效减少通信开销 [178],提高通信效率,增强语义信息的表达和理解,实现更灵活、智能和高效的语义通信 [78]。

经验教训:从本章中,我们学到了几个重要的经验教训。首先,尽管大语言模型在直接应用于物理层编码和解码时,在语义提取和重建方面表现出色,但其高计算复杂度仍然是在资源受限环境中实时部署的主要瓶颈 [179]。其次,当前的语义通信系统尚未完全解决关键问题,如动态网络条件下的语义信息对齐、歧义消除和带宽利用优化。在多用户和多模态场景中,这一点尤为明显,有效的语义标准化和跨模态协作仍然是开放的研究问题。

八、基于大语言模型的智能体系统

基于大语言模型和其他生成式人工智能模型的智能体系统应用,是应对当前通信系统所面临挑战的重要途径。这些由智能体驱动的系统可以提高语义通信系统的传输效率,并优化边缘设备的资源分配。

(一)基于大语言模型的智能体系统

基于大语言模型的智能体系统因其强大的自然语言处理能力,在通信系统中得到了广泛应用。例如,Xu 等人 [79] 提出了一种基于 6G 的大语言模型智能体分裂学习系统,以提高在资源受限的移动设备上本地大语言模型的部署效率。该系统通过感知、语义对齐和上下文绑定模块实现移动 - 边缘协作。一种模型缓存算法提高了模型利用率,降低了协作大语言模型智能体的网络成本。Jiang 等人 [40] 提出了一种多智能体系统,以应对大语言模型在 6G 通信评估中面临的挑战,包括缺乏原生数据、推理能力有限和评估困难等问题。该系统包括多智能体数据检索(MDR)、协作规划(MCP)和评估与反思(MER)。一个语义通信系统案例研究证明了其有效性。Tong 等人 [126] 提出了 WirelessAgent,它使用大语言模型构建人工智能智能体,以解决无线网络中的可扩展性和复杂性问题。凭借先进的推理、多模态数据处理和自主决策能力,它提高了网络性能。应用于网络切片管理时,WirelessAgent 能够准确理解用户意图,有效分配资源,并保持最佳性能。

此外,Zou 等人 [147] 提出了无线多智能体生成式人工智能网络,通过多智能体大语言模型实现任务规划,克服了基于云的大语言模型的局限性。他们的方法探索了基于博弈论的多智能体大语言模型,并设计了这些系统的架构。一个案例研究展示了基于设备的大语言模型如何协作解决网络解决方案。Wang 等人 [135] 提出了生成式人工智能智能体(GAI Agents),这是一种下一代 MIMO 设计方法,用于应对性能分析、信号处理和资源分配等方面的挑战。通过将生成式人工智能智能体与大语言模型和检索增强生成相结合,该方法实现了定制化解决方案。该论文讨论了该框架,并通过两个案例研究证明了其有效性,改进了 MIMO 系统设计。Zhang 等人 [140] 提出了用于卫星通信网络设计的生成式人工智能智能体,解决了系统建模和大规模传输方面的挑战。该方法使用大语言模型和检索增强生成构建交互式模型,并使用专家混合(MoE)进行传输策略优化。它结合专家知识并采用 MoE - PPO 进行仿真,验证了生成式人工智能智能体和 MoE - PPO 在定制问题中的有效性。Wang 等人 [180] 提出了一种由大语言模型驱动的基站选址(BSS)优化框架,克服了传统方法的局限性。通过优化提示和使用自动化智能体技术,该框架提高了效率,降低了成本,并减少了人工工作量。实验表明,大语言模型和智能体增强了基站选址的优化。

(二)基于其他生成式人工智能模型的智能体系统

除了大语言模型,基于其他生成式人工智能模型的智能体系统在通信系统研究中也得到了广泛应用。例如,Yang 等人 [127] 提出了一种基于强化学习的智能体驱动生成式语义通信(A - GSC)框架,以应对 6G 时代智能交通系统和数字孪生远程监控中的挑战。与以往主要关注语义提取的语义通信研究不同,A - GSC 框架将源信息的内在属性与任务上下文相结合,并引入生成式人工智能实现语义编码器和解码器的自主设计。Chen 等人 [181] 提出了一种用于 6G 网络中人工智能智能体的系统架构,解决了网络自动化、移动智能体、机器人、自治系统和可穿戴人工智能智能体等方面的挑战。该架构实现了人工智能智能体在 6G 网络中的深度集成,并与应用智能体进行协作。一个原型验证了它们的能力,突出了三个关键挑战:能源效率、安全性和人工智能智能体定制通信,为 6G 中的人工智能智能体奠定了基础。

(三)总结与经验教训

总结:本章总结了基于大语言模型和其他生成式人工智能模型的智能体系统在通信领域的研究与应用 [182]。通过利用这些技术强大的数据分析和处理能力,智能体系统可以更有效地应对当前通信系统所面临的挑战,从而实现更高效的信息传输 [183]。

经验教训:从本章中,我们学到了几个重要的经验教训。首先,受移动终端计算能力的限制,基于大语言模型的智能体系统在本地部署和协作执行中面临计算效率低、模型调度复杂等挑战。尽管一些研究引入了模型缓存和任务分区机制来提高资源利用率,但整个系统仍然难以满足现代通信场景中高并发和低延迟的需求 [184]。其次,虽然多智能体系统可以协作完成复杂任务,如数据检索、规划和反思,但缺乏特定领域知识和高质量通信数据限制了它们在 6G 语义通信等高级任务中的推理和决策性能。

九、大语言模型在新兴应用中的应用

大语言模型与新兴应用的结合是推动多个行业和领域技术创新的动力。这些大语言模型利用其庞大的数据集和深度学习能力,为智能医疗、碳排放、数字孪生、人工智能物联网(AIoT)、天地一体化网络(ISATN)以及无人机与大语言模型的集成等应用提供了有力支持。以下将详细介绍大语言模型在这些新兴应用中的应用。

(一)智能医疗

智能医疗利用这些先进技术提高医疗服务的效率和质量。通过数据驱动的决策支持系统,医疗机构可以实现准确诊断和个性化治疗,从而更有效地满足患者的需求。在智能医疗中,通过大语言模型并结合数字孪生技术,我们可以持续关注患者的身体状况,为患者提供个性化医疗服务。Abbasian 等人 [185] 提出的 openCHA 为用户提供了医疗咨询方面的个性化服务。openCHA 是一个基于大语言模型的开源框架,旨在为用户提供个性化的智能医疗服务。openCHA 框架通过整合外部数据源、知识库和人工智能分析模型,克服了现有大语言模型在医疗领域的局限性,包括缺乏个性化、多模态数据处理能力以及实时知识更新等问题。

(二)碳排放

在控制碳排放方面,Wen 等人 [186] 提出了一种基于生成式人工智能的低碳人工智能物联网解决方案,以减少通信网络和计算密集型任务中的能源消耗所产生的碳排放。生成式人工智能利用生成对抗网络(GANs)、检索增强生成(RAG)和生成扩散模型(GDMs)等技术,优化资源分配,减少能源浪费,提高效率。该论文探索了生成式人工智能在能源互联网(EI)、数据中心网络和移动边缘网络中的应用。在能源互联网中,生成式人工智能优化可再生能源的利用;在数据中心,它改善了信息和通信技术(ICT)设备及冷却系统的管理;在移动边缘网络中,生成式人工智能结合智能反射面(IRS)部署和语义通信技术,降低了功耗。研究结果显示了生成式人工智能在碳排放优化方面的优势,支持低碳人工智能物联网和可持续发展目标的实现。

(三)数字孪生

大语言模型在数字孪生中的应用是推动这项技术发展的关键力量。例如,Xia 等人 [187] 提出了一个将大语言模型、数字孪生和工业自动化系统相结合的框架,用于生产过程的智能规划和控制。基于大语言模型的智能体解释数字孪生中的描述性信息,并通过服务接口控制物理系统。这些智能体在自动化系统的各个层级中充当智能代理,实现了灵活生产过程的自主规划和控制。Hong 等人 [188] 提出了一种基于大语言模型的数字孪生网络(DTN)框架 LLM - Twin,以改善数字孪生网络中的通信和多模态数据处理。他们引入了数字孪生语义网络(DTSN)用于高效通信和计算,以及一种小 - 大模型协作方案用于高效的大语言模型部署和多模态数据处理。还设计了一种原生安全策略,在不牺牲效率的情况下维护安全性。数值实验和案例研究验证了 LLM - Twin 的可行性。

(四)人工智能物联网

在人工智能物联网中,Cui 等人 [189] 提出了 LLMind 框架,展示了将大语言模型与特定领域人工智能模块相结合如何增强物联网设备的智能和协作能力。它通过高级语言指令实现任务自动化和协作。一个关键特性是语言到代码的机制,它将自然语言转换为有限状态机(FSM)表示,用于设备控制脚本,优化任务执行。凭借经验积累机制,LLMind 提高了响应速度,并支持在动态环境中的高效协作,凸显了其在物联网智能控制中的潜力。

(五)天地一体化网络

Javaid 等人 [190] 探索了将大语言模型融入天地一体化网络(ISATN)的潜力。天地一体化网络结合了多种通信技术,以实现无缝的跨平台覆盖。该研究表明,大语言模型凭借其先进的人工智能和机器学习能力,在数据流优化、信号处理和网络管理方面,尤其是在 5G/6G 网络中,能够发挥关键作用。该研究不仅对天地一体化网络的架构和组件进行了全面分析,还详细讨论了大语言模型如何解决传统数据传输和处理中的瓶颈问题。此外,论文聚焦于天地一体化网络管理中与资源分配、流量路由和安全管理相关的挑战,强调了数据集成、可扩展性和延迟方面的技术难题。该研究最后提出了一系列未来研究方向,旨在进一步探索大语言模型的应用,以提高网络可靠性和性能,从而推动全球智能网络的发展。

(六)无人机与大语言模型的集成

关于无人机与大语言模型的集成,Javaid 等人 [191] 对当前大语言模型与无人机结合的现状和未来方向进行了系统分析。该研究深入探讨了大语言模型在增强无人机自主性和通信能力方面的作用,特别是在频谱感知、数据处理和决策制定等关键领域。通过集成大语言模型,无人机能够在复杂任务中实现更高水平的智能化,包括自主响应和实时数据处理。作者评估了现有的大语言模型架构,重点关注它们对提高无人机自主决策能力的贡献,尤其是在灾难响应和应急通信恢复等场景中。此外,论文强调了未来研究中面临的技术挑战,着重指出进一步探索法律、监管和伦理问题对于确保大语言模型与无人机技术有效且可持续集成的重要性。

(七)总结与经验教训

总结:本章突出了大语言模型在新兴应用中的作用。在智能医疗领域,大语言模型通过 openCHA 等框架实现个性化护理和高效诊断。在碳排放方面,基于大语言模型的优化框架应对环境挑战,对实现可持续性和碳中和目标具有重要价值。在数字孪生领域,大语言模型通过增强智能感知、通信 [192] 和控制能力,显著推动了其在工业自动化等领域的发展。在人工智能物联网中,大语言模型增强了设备协作、任务执行和用户交互 [193] 能力。此外,大语言模型通过改善资源分配、决策制定和通信,为天地一体化网络和无人机相关技术做出了贡献。这些应用展示了大语言模型在应对各个领域复杂挑战方面日益增长的影响力。

经验教训:从本章中,我们吸取了几个重要教训。一个主要问题是数据质量和多样性不足,这限制了大语言模型在不同领域的泛化能力。例如,在智能医疗中,虽然大语言模型可以提高个性化医疗的准确性,但数据隐私限制常常阻碍数据共享,这可能会给模型引入偏差。在碳排放优化和人工智能物联网场景中,大语言模型严重依赖高质量的实时数据,数据不完整或延迟等问题会对优化结果产生负面影响。此外,安全和隐私问题至关重要。在数字孪生应用中,大语言模型做出的决策可以直接影响物理系统的运行,任何数据篡改或模型攻击都可能导致严重后果。在涉及天地一体化网络和无人机与大语言模型集成的应用中 [194],这种风险尤为突出,网络安全漏洞可能被恶意利用,导致数据泄露或通信中断。

十、研究挑战

尽管大语言模型在通信领域具有巨大的应用潜力,但它们仍然面临许多挑战。本节主要介绍大语言模型在通信领域的一些研究挑战和潜在解决方案。

缺乏高质量通信数据:在 6G 和万物互联(IoE)等前沿技术的应用中,数据获取和多样性面临重大挑战。这一问题在无线通信、干扰缓解和频谱管理等核心任务中尤为关键,高质量标注数据的缺乏限制了大语言模型的训练效果。首先,数据收集成本高昂,特别是在复杂的网络环境中,需要在硬件和传感器上进行大量投资,这增加了设备支出和长期维护的复杂性。其次,数据隐私和伦理问题日益突出,严格的隐私法规对数据收集施加了严格限制,从而使有效数据集的获取变得复杂。最后,标注数据的稀缺是一个主要限制,特别是对于高精度任务,因为获取标注数据需要领域专业知识和昂贵的设备。此外,通信环境的动态性使得全面覆盖所有条件变得困难,最终限制了模型的泛化能力。通信领域的数据稀缺问题阻碍了大语言模型的应用。为了应对这一挑战,可以采用数据增强、自监督学习和生成对抗网络(GANs)等技术来扩展数据集规模、提高训练效率并减少对高质量标注数据的依赖。这些方法使大语言模型能够更好地适应动态通信场景。

缺乏结构化通信知识:大语言模型由于对通信理论、协议和标准的理解有限,难以解决复杂的通信问题。由于大语言模型主要依赖数据驱动的学习,它们的决策往往仅基于从训练数据中提取的统计模式,而忽略了通信中固有的结构化知识。例如,信号衰减、干扰和噪声等因素直接影响通信系统设计。然而,大语言模型在嵌入这些复杂的结构化知识元素时面临挑战,特别是在干扰消除、频谱分配和信道建模等任务中。这种限制常常导致无法准确捕捉物理约束,最终影响整体系统性能。为了克服缺乏结构化通信知识的挑战,研究人员可以通过基于物理知识的网络将大语言模型与通信原理相结合,并使用知识图谱构建结构化通信知识。通过将特定领域的专业知识与大语言模型的推理能力相结合,这些方法可以提高模型在复杂通信场景中的性能。

通信中的生成幻觉:大语言模型中的幻觉现象在通信领域已成为一个重大挑战。这种现象可分为两种主要类型:事实幻觉,即模型生成的内容与正确结果偏差较大;忠实性幻觉,即模型未能准确遵循用户指令,产生不相关或不一致的响应。这些幻觉的根本原因在于模型的数据驱动训练过程,缺乏对通信系统原理的深入理解。因此,在信号质量预测和网络优化等任务中可能会出现不准确的决策,严重降低网络性能和用户体验。为了解决这个问题,可以采用多种策略来提高模型输出的准确性和稳定性。这些策略包括纳入通信系统的物理约束、利用传统优化方法辅助模型输出、采用多个模型的集成决策来提高输出一致性,以及设计专门的幻觉检测和缓解算法。通过确保输出符合通信系统的客观原理,这些方法可以提高大语言模型在现实通信场景中的可靠性和适用性。

推理能力的局限性:通信系统中的大语言模型主要依赖数据驱动的模式识别和预测。然而,当面临需要高度抽象和多步推理的通信任务时,它们往往难以准确理解复杂的逻辑关系,导致决策不可靠。在无线信道建模、频谱分配和干扰管理等场景中,大语言模型必须推断多个相互依赖的物理参数和网络因素,以做出明智的决策。如果缺乏深度推理能力,大语言模型可能无法正确考虑这些复杂的依赖关系,导致输出与现实世界通信系统的物理原理相矛盾。为了解决大语言模型在处理复杂通信问题时的推理局限性,可以采用思维树推理、基于图的推理和长链推理等技术。这些方法利用层次结构化信息、多步推理和过程级奖励函数来增强逻辑推理能力、提高决策准确性并增加模型适应性。通过集成这些先进的推理机制,大语言模型可以更高效、精确地处理复杂的通信任务。

大语言模型的可解释性差:通信领域大语言模型的黑箱性质由于其可解释性差而带来了关键挑战。这些模型的内部机制和决策过程往往不透明,使得在故障诊断、系统优化和网络管理等任务中难以追溯决策,从而增加了故障排除的复杂性。此外,可解释性的缺乏引发了伦理和法律问题,特别是在涉及用户隐私和网络安全的领域。为了解决这个问题,可以采用可解释人工智能(XAI)技术来提高大语言模型的透明度和可信度。局部可解释模型无关解释(LIME)和夏普利加性解释(SHAP)等方法可以帮助用户理解模型决策的依据。此外,通过图形表示可视化模型的决策过程可以提供推理路径的见解。这些解决方案不仅提高了可解释性,还为通信系统实现了透明和可追溯的决策过程,增强了信任和操作可靠性。

动态环境中的适应性:由于网络拓扑、信道条件和用户需求的动态变化,通信系统在优化和管理方面面临重大挑战,快速适应和实时决策至关重要。虽然大语言模型在静态环境中表现出强大的性能,但它们在动态场景中的适应性往往成为实际应用的瓶颈。在无线信道估计、资源调度和干扰消除等任务中,大语言模型必须迅速响应环境变化,以确保准确和及时的预测。如果模型无法根据不断变化的网络条件和用户需求调整其生成能力,可能会导致预测延迟或不准确,从而降低系统性能。为了解决这个问题,在线学习、持续学习、多任务学习和元学习等技术提供了有效的解决方案。这些方法使大语言模型能够动态优化参数、实时适应并跨任务利用知识转移,从而增强它们在动态通信环境中的推理能力、适应性和鲁棒性。

通信任务的多样性:通信领域涵盖了广泛的高度专业化任务,包括信号处理、网络优化、干扰缓解和频谱管理。这些任务在目标、约束和优化策略方面差异显著,并且往往相互关联。虽然大语言模型在多任务学习方面具有优势,但它们缺乏特定领域知识、优化要求的差异以及任务之间的不一致性,使得适应通信任务的多样性具有挑战性。例如,信号处理需要对调制和解调技术有深入理解,而网络优化侧重于带宽分配和流量控制。因此,设计能够灵活适应不同通信任务的模型架构仍然是一个重大挑战。任务特定模型、专家混合(MoE)和迁移学习等方法在提高大语言模型在这方面的性能方面显示出了潜力。任务特定模型为不同任务分配专用子模型,以最小化干扰并提高有效性;MoE 动态选择针对特定任务的专家模型,提高多任务学习效率;迁移学习促进知识转移,提高大语言模型的适应性和泛化能力。这些方法共同提高了大语言模型在多任务环境中的适应性、效率和准确性,从而增强了它们在各种电信任务中的性能和可靠性。

边缘资源受限:在移动设备、边缘计算平台和物联网设备中,硬件资源通常有限,无法满足大语言模型的高计算和能源需求。这些设备,尤其是 6G 网络边缘的节点和终端,预计将在低功耗和资源受限的条件下运行,但其处理能力、内存和能源效率无法满足大语言模型的要求。在边缘直接部署大语言模型通常会导致性能下降、延迟增加,并损害通信质量和用户体验。为了提高大语言模型在计算、存储和功率有限的设备上的效率,可以采用多种策略:模型蒸馏将知识从大语言模型转移到较小的模型,以增强适应性;模型压缩技术,如剪枝和量化,减少计算和内存开销;硬件加速利用 GPU、TPU 和 FPGA 等专用硬件,在降低功耗的同时加快推理速度。这些方法有效地提高了大语言模型在边缘和物联网场景中的推理效率和性能。

高推理延迟:在无线通信中,低延迟和高吞吐量至关重要,特别是对于自动驾驶和远程医疗等实时应用。然而,由于其大规模架构和复杂的计算需求,大语言模型往往存在高推理延迟问题,这可能导致系统响应延迟、吞吐量降低、关键任务不稳定以及资源利用效率低下。随着通信系统变得越来越复杂,一个关键挑战是在保持模型准确性的同时降低推理延迟。为了解决高推理延迟问题,可以应用多种优化技术。算子融合通过组合多个操作减少内存访问和数据传输延迟,从而提高计算效率。推测采样通过提前预测未来步骤加速推理,减少计算开销。这些方法有效地降低了延迟、提高了响应时间并改善了资源利用,确保大语言模型能够满足下一代通信系统严格的性能要求。

安全和隐私:在 6G 网络中,使用大语言模型进行数据处理带来了重大的安全和隐私风险。由于大语言模型通常以集中方式进行预训练,它们极易受到数据泄露的影响,攻击者可能利用这些泄露重建敏感信息。此外,数据传输容易受到中间人攻击、窃听和篡改。而且,大语言模型本身可能面临对抗攻击,导致错误的预测和决策,从而危及网络稳定性。随着数据隐私法规日益严格,大语言模型必须遵守隐私保护要求,以减轻法律风险并维护用户信任。为了解决这些挑战,研究人员提出了多种解决方案。联邦学习使模型能够在本地设备上进行训练,最大限度地减少敏感数据的传输和存储,从而降低数据暴露风险。加密计算技术,如同态加密和安全多方计算,确保即使在不可信环境中数据也是安全的。这些方法有助于减轻与大型模型相关的安全威胁,增强模型的可靠性和用户信任,从而促进大语言模型与下一代通信技术的深度集成。

十一、结论

本文全面回顾了大语言模型在通信领域的发展、关键技术、应用场景和研究挑战。它系统地总结了大语言模型从基础理论到实际应用的关键作用和潜力,特别是在 6G 时代,对高效、稳定和智能通信系统的需求日益增长的背景下。首先,本文深入探讨了大语言模型的基础方面,包括模型架构、不同类型大语言模型的分类、训练范式、评估方法以及通信领域的优化机制。其次,它详细概述了大语言模型在各种场景中的应用研究进展。本文系统地分析了不同大语言模型在不同应用场景中的适应性和技术优势,并通过大量案例研究和前沿发展的讨论加以支持。最后,本文对大语言模型目前在通信领域面临的关键挑战进行了深入分析。这些挑战包括缺乏高质量通信数据、缺乏结构化领域知识以及在通信任务中出现的生成幻觉。此外,推理能力不足、可解释性差、对动态环境的适应性弱以及任务多样性带来的建模复杂性增加等限制,进一步阻碍了大语言模型在通信领域的发展。实际部署还受到边缘计算资源有限、推理延迟高以及数据安全和隐私保护等关键问题的制约。本文进一步提出了应对这些挑战的潜在解决方案。通过这些努力,大语言模型有望实现更智能、高效和安全的服务,从而推动 6G 及未来通信网络的发展。


本文转载自公众号AIRoobt ,作者:Feibo Jiang等

原文链接:https://mp.weixin.qq.com/s/8Piedl_YLer2ZMavFkMNDg

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-5-9 06:33:41修改
收藏
回复
举报
回复
相关推荐