大模型新手必看!100个基础知识点全在这 精华

发布于 2025-5-12 00:09
浏览
0收藏

从智能对话到图像生成,从文本创作到数据分析,大模型的应用场景无处不在。然而,对于初入大模型领域的小白来说,面对众多的专业术语和复杂的概念,可能会感到无从下手。别担心,本文为你整理了大模型基础知识点近100个名词解释,助你轻松开启大模型的学习之旅!

一、模型架构与基础概念

1. LLM(大语言模型,Large Language Model)

基于海量文本数据训练的深度学习模型,如GPT系列、BERT等,能够理解和生成自然语言文本,完成复杂对话、文本创作等任务。想象一下,你和一个学识渊博的智者对话,他能理解你的问题并给出精彩的回答,LLM就是这样的存在。

2. AGI(通用人工智能,Artificial General Intelligence)

这是AI研究的终极目标,追求创造能像人类一样学习新技能、解决广泛问题的智能体。目前仍处于理论探索和初步实践阶段,就像科幻电影中那些无所不能的机器人,AGI一旦实现,将开启智能新时代。

3. AIGC(人工智能生成内容,Artificial Intelligence Generated Content)

利用AI技术生成的各种内容,从文本、图像到视频,涵盖范围极广。比如AI艺术画作、定制文章、虚拟角色等,AIGC正在成为创意产业的新宠,为人们带来新颖、个性化的体验。

4. Prompt(提示词)

在AI大模型中用于引导模型生成特定类型输出的上下文信息或指令。例如,你让模型“写一篇科幻故事”,这个指令就是提示词,它能告诉模型你想要什么内容。

5. 提示工程(Prompt Engineering)

设计和优化输入提示以获得所需模型输出的过程。这就像给AI模型出难题,通过精心设计的提示,让模型给出更准确、更有创意或符合特定风格的答案,是提高AI大模型响应质量的关键策略。

6. 多模态(Multimodal)

文本、图像、音频等都是一种模态,多模态指能够处理多种类型数据的模型。比如,一个既能看懂图片又能理解文字的智能助手,能综合分析多种信息,为用户提供更全面的服务。

7. 推理(Inference)

大模型的推理是指使用已经训练好的模型进行实际应用,生成预测或输出结果的过程。比如,你问模型问题,它给出答案;你给它文本描述,它生成图片,这就是推理在发挥作用。

8. 涌现(Emergence)

系统中新的性质、模式或行为在更简单的组件相互作用下自发形成的现象。就像一群蚂蚁通过简单的个体行为,能形成复杂的蚁巢结构,大模型中也会出现这种涌现现象,产生意想不到的能力。

9. 对齐

AI价值对齐是指让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致。简单来说,就是让AI模型的行为符合人类的道德和价值观,确保人机协作的安全与信任。

10. Token

通常指的是文本或数据中的一个基本单元或符号,在自然语言处理中,单词是最常见的token。例如,“你好,世界!”会被分解为“你”“好”“,”“世界”和“!”这样的token,便于机器理解和处理。

11. 智能体(Agent)

在环境中感知、思考并采取行动的自主AI系统。比如,一个智能机器人在工厂中自主导航、搬运货物,它就是一个智能体。

12. 世界模型

AI系统内部构建的对现实世界的抽象认知模型,用于预测、规划和决策。就像人类大脑对世界的理解一样,世界模型帮助AI系统更好地适应和应对复杂环境。

13. Scaling Law

机器学习中,模型性能随其规模增大(如参数数量、数据量)而提高的现象。这意味着,模型越大,数据越多,性能往往越好,但也要考虑资源和成本的平衡。

14. 大模型幻觉

大型语言模型生成的内容看似合理但实际上不准确或虚构的信息。这是因为模型只是基于概率生成下一个词语,并不具备真正的理解能力,所以有时会出现“一本正经地胡说八道”的情况。

15. Copilot

AI辅助工具的代名词,例如Github Copilot能辅助程序员编程,Office Copilot能辅助编写文档、制作PPT等。它们就像程序员和办公人员的智能助手,大大提高工作效率。

16. 具身智能

拥有物理实体的智能体(如机器人),通过与环境的互动学习和适应。比如,波士顿动力的机器狗,它能在复杂环境中行走、奔跑、避障,展现出接近生物体的智能表现。

二、训练方法与技术

训练数据集

大模型训练所需的大规模数据集,包含了各种语言样本,用于模型的学习、验证和测试其性能。它就像一本“学习秘籍”,为模型提供了丰富的学习材料。

参数量

模型中可调节的数值,用于调整神经网络的行为。参数量越多,模型的表达能力越强,但同时也需要更多的数据和计算资源来训练。

深度学习

一种基于多层神经网络的机器学习方法,特别适合处理大规模数据。它能自动提取数据中的复杂特征,减少手工设计特征的需求,是大模型训练的核心技术之一。

预训练(Pre - training)

在大规模无标注数据上训练模型,学习通用的语言规律。这相当于让模型先进行“通识教育”,掌握基本的语言知识和技能。

微调(Fine - tuning)

在预训练模型基础上,用特定领域的小规模数据进一步训练。这就好比让一个已经接受过通识教育的学生,再进行专业领域的深入学习,使其在特定任务上表现更好。

监督微调(Supervised Fine - Tuning,SFT)

使用标注好的数据集对模型进行进一步训练,使其在特定任务上表现更好。标注数据就像给模型提供了明确的答案,帮助它更好地理解和学习。

少样本学习(Few - shot Learning)

在只有少量标注数据的情况下训练模型,使其能够快速适应新任务。这体现了模型的学习效率和泛化能力,即使只有少量样本,也能快速掌握新任务的规律。

超参数调优(Hyperparameter Tuning)

对模型的超参数进行优化,以提高模型性能。超参数就像是模型训练的“调节旋钮”,通过调整它们,可以找到最适合模型的训练参数,提升性能。

零样本学习(Zero - shot Learning)

模型在没有见过特定类别的数据的情况下进行推理。这要求模型具备很强的泛化能力和知识迁移能力,能够根据已有的知识对未见过的类别进行推理和判断。

对抗训练(Adversarial Training)

通过生成对抗样本来训练模型,增强其鲁棒性。对抗样本就像是给模型设置的“难题”,通过训练模型识别和应对这些难题,使其在面对各种复杂情况时更加稳定和可靠。

Scaling Law(缩放定律)

描述模型性能如何随着模型规模(如参数数量)、数据集大小和计算资源的增加而变化的规律。它为模型的设计和训练提供了重要的指导,帮助我们更好地理解模型性能与资源投入之间的关系。

自监督学习(Self - Supervised Learning)

通过输入数据本身的部分信息来生成标签。这种方法不需要额外的标注数据,充分利用了数据本身的结构和信息,是一种高效的学习方式。

人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)

通过人类反馈优化模型输出,使其更符合人类价值观。人类的反馈就像是给模型的“导航”,引导它朝着更符合人类期望的方向发展。

迁移学习(Transfer Learning)

将一个领域的知识迁移到另一个领域以改进学习效率和效果的方法。这就像把在数学中学到的逻辑思维能力应用到物理学习中,提高学习效率和效果。

梯度下降(Gradient Descent)

一种优化算法,通过最小化损失函数来更新模型参数,以改进模型性能。它是模型训练中最常用的优化方法之一,通过不断调整参数,使模型逐渐逼近最优解。

批量大小(Batch Size)

在训练神经网络时,一次迭代中使用的样本数量。它影响模型训练的速度和稳定性,批量大小越大,训练速度越快,但对内存的要求也越高。

元学习(Meta - learning)

也称为“学习如何学习”,通过从多个相关任务中学习来提高新任务的学习效率。这就像一个经验丰富的学习者,能够快速掌握新的知识和技能,适应不同的学习任务。

学习率(Learning Rate)

控制梯度下降步骤大小的超参数,对模型训练速度和最终性能有重要影响。学习率过大可能导致模型训练不稳定,过小则会使训练速度过慢,需要仔细调整。

早停法(Early Stopping)

一种防止过拟合的技术,在验证集上的性能不再提高时停止训练。这可以避免模型在训练集上过度拟合,提高模型的泛化能力。

数据增强(Data Augmentation)

通过对训练数据进行变换(如旋转、缩放等),生成更多样化的训练样本,以增加模型的泛化能力。这种方法在图像处理领域尤其常见,通过数据增强,模型能够更好地应对各种变化。

联合学习(Federated Learning)

是一种分布式机器学习方法,允许多个参与者在不共享原始数据的情况下共同训练模型。这种方法特别适用于隐私保护和数据安全要求较高的场景,如医疗、金融和移动设备等领域。

三、模型优化与压缩

知识蒸馏(Knowledge Distillation)

一种技术,通过训练一个小模型(学生模型)来模仿大模型(教师模型)的行为,以减少计算复杂度和资源消耗。这不仅限于大小模型之间的转换,也可以用于模型间的知识迁移。

量化(Quantization)

将模型的参数和激活值映射到较低的位数(如从32位浮点数降至8位整数),以减少模型的存储需求和计算复杂度。这有助于降低内存占用并加速推理过程。

模型压缩(Model Compression)

通过一系列技术手段,如知识蒸馏、量化、剪枝等,减少模型的参数量和计算量,使其能够在资源有限的设备上高效运行。

剪枝(Pruning)

去除神经网络中冗余的权重或神经元,包括非结构化剪枝(逐个权重)和结构化剪枝(如整个通道、滤波器或层),以达到压缩模型的目的,简化模型结构,便于硬件实现。

稀疏激活(Sparse Activation)

采用特定类型的激活函数(如ReLU变体)或通过结构化稀疏训练,使得神经网络的激活函数在大部分情况下输出零值,从而减少计算量和存储需求。

低秩分解(Low - Rank Factorization)

通过近似高维矩阵为两个或多个低维矩阵的乘积来减少模型参数量的技术,这种方法可以有效降低计算成本和存储需求。

权重共享(Weight Sharing)

是卷积神经网络(CNN)中的一个核心概念,主要目的是减少模型的参数数量,提高计算效率和泛化能力。在卷积层中,卷积核(Filter)在输入图像的每个位置上使用相同的权重参数进行卷积操作。

四、计算与性能优化

混合精度训练(Mixed - Precision Training)

通过结合使用16位和32位浮点数来加速深度学习模型的训练过程,同时减少内存占用。这不仅提高了计算效率,还允许在相同的硬件上训练更大规模的模型。

批处理(Batching)

一次性处理多个样本以提高计算效率的技术,通过充分利用现代硬件(如GPU)的并行处理能力,显著加快训练速度。

硬件加速(Hardware Acceleration)

利用专门设计用于加速特定类型计算任务的硬件(如GPU、TPU)来加速模型的训练和推理过程,提供比通用CPU更高的计算能力和效率。

并行计算(Parallel Computing)

将计算任务拆分成多个子任务并在多个处理器或核心上同时执行,以加快处理速度,对于缩短大型模型的训练时间和提升推理效率至关重要。

自适应计算(Adaptive Computation)

根据任务需求动态调整计算资源的分配,以优化性能或能效比。例如,在神经网络中,某些层可能需要更高的计算能力,而其他层则不需要。

分布式训练(Distributed Training)

通过在网络中的多台机器之间分配训练任务来加速训练过程,特别适用于处理极其庞大的数据集和模型参数。

内存优化(Memory Optimization)

采用各种技术减少训练过程中所需的内存消耗,使得可以在有限的硬件资源上训练更大的模型,如梯度累积和检查点机制等。

五、推理与应用

推理(Inference)

模型在训练完成后,利用学到的知识根据输入数据预测输出结果,用于解决实际问题或做出决策。

深度强化学习(Deep Reinforcement Learning)

结合深度学习和强化学习的方法,使代理能够在复杂环境中通过试错学习最优策略,广泛应用于游戏、机器人控制等领域。

模型融合(Model Ensembling)

将多个模型的预测结果组合起来以提高总体性能,通过结合不同模型的优势来提升预测准确性。

多模态学习(Multimodal Learning)

训练能够处理多种输入形式(如文本、图像、语音等)的模型,使得模型能够理解和处理来自不同信息源的数据。

迁移学习(Transfer Learning)

一种技术,通过将在一个领域或任务上学到的知识应用到另一个领域或任务上,以改进学习效率和效果。这种方法特别适用于目标领域数据稀缺的情况,通过利用源领域的丰富知识来加速学习过程并提高模型性能。

上下文窗口(Context Window)

模型在处理输入数据时能够“看到”的上下文范围,对于捕捉序列数据中的依赖关系至关重要。

在线学习(Online Learning)

模型能够实时更新其参数以适应不断变化的数据环境,特别适用于数据流持续到达的应用场景,如推荐系统和金融市场分析。

六、数据与标签

数据清洗(Data Cleaning)

是一个关键步骤,用于改善数据的质量和可靠性,确保数据的准确性、一致性和完整性。通过识别和纠正数据中的错误、缺失值、异常值和重复值,数据清洗显著提高数据的准确性和完整性。

特征工程(Feature Engineering)

从原始数据中提取有用的特征,以便更好地训练机器学习模型。这包括特征选择、特征创建和转换等过程。

数据标注(Data Annotation)

为训练监督学习模型而对数据进行标记的过程,涉及将类别标签或其他注释附加到数据点上。

合成数据(Synthetic Data)

通过算法生成的人工数据,用于补充或替代真实世界的数据。合成数据可以在数据稀缺、敏感或难以收集的情况下提供帮助,尤其是在需要保护隐私的环境中。

数据增强(Data Augmentation)

通过生成新的训练样本来增加训练数据的多样性,如图像旋转、缩放等,以提高模型的泛化能力和鲁棒性。

硬标签(Hard Labels)

指的是明确的分类标签,通常是单热编码(one - hot encoding)形式,表示样本属于某一特定类别。

软标签(Soft Labels)

不同于硬标签的确定性分类,软标签提供了教师模型预测的概率分布,反映了每个类别的可能性。这种方法可以传递更多的信息,例如在知识蒸馏中,使用软标签可以帮助学生模型更好地学习教师模型的知识。

七、模型评估与调试

对抗样本(Adversarial Examples)

是通过算法在原始输入中添加人眼难以察觉的微小扰动所形成的新样本,以该样本作为模型的输入,会使得模型以高置信度将其分类错误。对抗样本可对机器学习模型产生攻击效果,但目前对抗样本在深度学习领域中的研究较为广泛。

局部搜索(Local Search)

一种优化算法,通过在解空间中寻找局部最优解,并试图从局部最优解出发找到全局最优解。尽管不是直接与模型评估相关,但在某些情况下可用于优化模型参数。

模型的可扩展性(Scalability)

可扩展性是指系统处理不断增长的用户、数据、并发、业务的能力或其适应业务、数据增长的潜力。当请求负载或用户数据增加时,能够保持甚至提高其性能、效率和可靠性的系统具有良好的可扩展性。可扩展性对于确保系统能够处理增加的用户流量、数据量或计算需求,而不会显著降低性能或需要完全重新设计至关重要。

可解释性(Explainability)

指的是模型决策过程的透明度和可理解性,即能够清楚地解释模型为什么做出特定预测的能力。这对于确保模型的公平性、避免偏见以及增强用户信任至关重要。

模型的鲁棒性(Robustness)

模型在面对噪声、对抗攻击或数据分布偏移时保持稳定性和准确性的能力。一个鲁棒性强的模型能够在各种条件下保持良好的性能。

精确率、召回率和F1分数(Precision, Recall, F1 Score)

精确率是指预测为正类的样本中有多少是真正正确的;召回率是指所有实际为正类的样本中有多少被正确识别出来;F1分数则是精确率和召回率的调和平均数,提供了一个单一的指标来评价模型性能。

模型的泛化能力(Generalization)

模型在未见过的新数据上表现良好的能力,是衡量模型是否过拟合的重要指标。良好的泛化能力意味着模型不仅能在训练数据上表现良好,在新数据上也能有出色的表现。

交叉验证(Cross - validation)

一种统计方法,通过将数据集划分为几个子集并循环使用这些子集进行训练和测试来评估模型性能。这种方法有助于更准确地估计模型的泛化能力,并减少因数据划分不同而导致的结果波动。

混淆矩阵(Confusion Matrix)

用于描述分类模型性能的一种表格,显示了每个类别的实际值与预测值之间的对比情况,提供了关于分类器误差类型的详细信息。

AUC - ROC曲线(Area Under the Curve - Receiver Operating Characteristic Curve)

用于评估二分类模型性能的一个图形工具,展示了模型区分正负类的能力。AUC值越接近于1,表示模型的分类效果越好。

模型校准(Model Calibration)

确保模型预测的概率反映了真实发生的概率的过程。良好的校准对于需要概率估计的任务非常重要。

偏差 - 方差权衡(Bias - Variance Tradeoff)

描述了模型复杂度与误差之间的关系。高偏差通常意味着模型过于简单而欠拟合,高方差则意味着模型过于复杂而过拟合。

八、伦理与公平性

模型的伦理和偏见(Ethics and Bias)

指模型在训练和应用过程中可能存在的伦理问题和偏见。这些问题包括但不限于性别、种族、年龄等方面的歧视性偏差,以及隐私保护、数据使用合法性等伦理考量。解决这些问题对于构建公平、透明和负责任的人工智能系统至关重要。

问责制(Accountability)

指确定谁对AI系统的决策负责的过程。这涉及到法律、伦理和技术层面的问题,确保当模型出现错误或造成伤害时,有明确的责任人或机制来处理。

透明度(Transparency)

指模型决策过程对用户的公开程度,以及用户理解模型工作原理的能力。高透明度有助于建立信任,并允许用户了解模型是如何做出决策的,这对于识别和纠正潜在的偏见和不公平现象非常重要。

公平性(Fairness)

指机器学习模型在不同群体之间的表现是否公正。评估模型的公平性通常涉及检查是否存在对某些群体不利的偏见,并采取措施减轻这种偏见,以确保所有用户都能得到公平对待。

本文转载自​​智驻未来​​​​​,作者:小智

收藏
回复
举报
回复
相关推荐