【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解

发布于 2025-6-23 06:40

浏览

0收藏

批归一化（Batch Normalization）和层归一化（Layer Normalization）是深度学习中广泛应用的两种数据归一化方法，用于改善神经网络的训练性能。本文将从提出这两种技术的原论文出发，详细阐述技术背景、原理及基于Pytorch的实现方式。

1.批归一化（Batch Normalization）

批归一化由谷歌的Sergey Ioffe和Christian Szegedy于2015年在论文“Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”中提出。

（1）技术背景：深度神经网络的训练十分复杂，因为在训练过程中随着前一层网络参数的变化，下一层网络的输入分布也会发生变化。而更低的学习率和更精细的参数初始化又会减慢模型训练速度，特别是会让具有饱和非线性的模型收敛变得十分困难，如使用Sigmoid激活函数时，容易陷入梯度消失之中。

Ps：饱和非线性是指激活函数在输入值较大或较小时，其输出趋于恒定，导数接近于零的现象，如Sigmoid和Tanh激活函数。

（2）技术原理：批归一化则是通过标准化输入来解决上述问题，将归一化作为模型架构的一部分，对每次训练中的小批量样本执行归一化，使得我们可以使用更高的学习率且能降低对参数初始化的要求。同时，在某些情况下还能充当正则化使用，可以替代Dropout技术。

（3）批归一化详细计算步骤：

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解-AI.x社区

需要特别注意的是，批归一化中模型在测试时使用的是训练中累积的全局均值和方差替代小批量样本的统计值，有关全局均值和方差的计算可见下述详细代码的实现，更加清晰明了。

（4）基于Pytorch的实现

Pytorch中提供了nn.BatchNorm1d、nn.BatchNorm2d 和 nn.BatchNorm3d，对应不同输入维度的批归一化层，如下所示：

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解-AI.x社区

【参数详解】

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解-AI.x社区

(5) 使用Python手动实现批归一化

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解-AI.x社区

2.层归一化（Layer Normalization）

层归一化由多伦多大学的Jimmy Lei Ba等人于2016年于论文“Layer Normalization”中提出。

（1）技术背景：批归一化的效果取决于小批量的大小，且在循环神经网络中的应用受到明显的限制。同时，批归一化也不能应用于在线学习任务或小批量必须很小的极大分布式模型。

Ps：循环神经网络中循环神经元的输入总和通常随序列长度的变化而变化，因此对其应该针对不同时间步长进行不同的统计。

（2）技术原理：层归一化则是通过计算单个样本中所有特征值的均值和方差来实现输入数据的归一化，可以直接应用于循环神经网络。与批归一化一样的是在归一化之后也提供了自适应偏差和增益两个可学习参数来增强模型的表达能力。与批归一化不同的是，层归一化在训练和测试的时候执行完全相同的计算。

（3）层归一化详细计算步骤：

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解-AI.x社区

（4）基于Pytorch的实现

Pytorch中提供了nn.LayerNorm实现层归一化层，适合处理任何维度的输入，如下所示：

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解-AI.x社区

【参数详解】

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解-AI.x社区

（5）使用Python手动实现层归一化

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解-AI.x社区

本文转载自南夏的算法驿站，作者：赵南夏

标签

批归一化

层归一化

LayerNorm

相关推荐

一文详解Transformer 细节及代码实现

angel • 4540浏览 • 0回复
深度学习架构的超级英雄——BatchNorm2d

51CTO内容精选 • 3552浏览 • 0回复
一文详解大语言模型的流行架构与训练技术

angel • 5750浏览 • 0回复
基于LangGraph多智能体技术，搭建AI写作自动化系统

小虎哦哦 • 5949浏览 • 0回复
一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

玄姐聊AGI • 7312浏览 • 0回复
最近一段时间关于大模型技术的学习及应用的心得体会

AI探索时代 • 4764浏览 • 0回复
一种模块化大模型Agent框架全栈技术综述

PaperAgent • 5921浏览 • 0回复
小红书开源StoryMaker：个性化图像生成模型，实现角色一致性与背景变化的完美结合

angel • 8625浏览 • 0回复
时序预测数据处理新方法汇总：多粒度和频域的可逆归一化

海因斯DK • 5478浏览 • 0回复
基于关系型深度学习的自助机器学习

51CTO内容精选 • 3074浏览 • 0回复
RAG增强之路：增强PDF解析并结构化技术路线方案及思路

大模型自然语言处理 • 3578浏览 • 0回复
一文详解MHA、GQA、MQA原理

大模型自然语言处理 • 6315浏览 • 0回复
一文详解集成学习算法原理

宝宝数模AI • 3292浏览 • 0回复
深度学习二分类评估详细解析与代码实战

AI悠闲区 • 3314浏览 • 0回复
详解MMoE 模型：多任务学习中的专家混合建模与实践【附代码】

南夏的算法驿站 • 6812浏览 • 0回复
AI Agents 与 Agentic AI：技术差异深度剖析及应用前景

Halo咯咯 • 3497浏览 • 0回复
Meta 重磅发布 DyT 函数：Transformer 无需归一化层，性能反超传统方案！

AIPaperDaily • 3536浏览 • 0回复
从碎片化到一体化：Rankify 如何重塑检索、重排与生成的全流程

Halo咯咯 • 2425浏览 • 0回复
一文剖析基于 MCP 的 AI 应用技术架构全景视图：从基础实施层、云原生层、模型层、应用技术层、应用架构层

玄姐聊AGI • 3192浏览 • 0回复

南夏的算法驿站

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解

1.批归一化（Batch Normalization）

2.层归一化（Layer Normalization）

目录