南夏的算法驿站
LV.1
致力于钻研机器学习、深度学习及推荐系统相关的理论知识
声望 98
关注 0
粉丝 0
私信
主帖 12
回帖
动量法通过引入历史梯度信息显著提升了收敛效率,却难以摆脱路径震荡与局部最优的桎梏。当梯度方向突变时,传统动量法如同盲目前行的旅人,只能依赖当前脚步调整方向,却常因惯性陷入反复震荡的困局。而Nesterov动量法的“前瞻机制”,犹如为优化过程装上预判未来的罗盘——它先沿历史动量方向跨出试探性一步,在预估位置重新校准梯度,实现对路径的动态修正。本文将深入解析动量法的局限性与Nesterov的破局之道,揭示其如何通...
6天前 217浏览 0点赞 0回复 0收藏
梯度下降法是仅使用梯度信息的一阶优化算法,忽略了曲率信息,计算简单且可能收敛慢。因此,牛顿法使用Hessian矩阵结合了局部曲率信息,自适应地调整更新步长,进一步加速收敛。本文将从梯度下降法的局限性出发,详细介绍牛顿法的数学推导过程。(全文1300余字,感兴趣可点赞、推荐、转发、关注,将持续更新!!!)1、梯度下降法的局限性(1)梯度下降法沿参数空间中某一点处的​​​负梯度方向​​​进行参数更新。同时,​​​...
2025-07-07 06:44:07 784浏览 0点赞 0回复 0收藏
批归一化(BatchNormalization)和层归一化(LayerNormalization)是深度学习中广泛应用的两种数据归一化方法,用于改善神经网络的训练性能。本文将从提出这两种技术的原论文出发,详细阐述技术背景、原理及基于Pytorch的实现方式。1.批归一化(BatchNormalization)批归一化由谷歌的SergeyIoffe和ChristianSzegedy于2015年在论文“BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift”中提...
2025-06-23 06:40:25 1241浏览 0点赞 0回复 0收藏
对模型的泛化性能进行评估,不仅需要有效可行的试验估计方法,还需要具有衡量模型泛化能力的评价标准,即性能度量。且在不同的任务中对比模型的性能时,使用不同的性能度量往往会导致不同的评判结果。在分类任务中,最常用的性能度量有错误率、精度、查准率、查全率、F1分数及AUCROC曲线。01错误率与精度(1)错误率(errorrate)是分类错误的样本数占样本总数(m)的比例。计算公式可表示为:(2)精度(accuracy)是分类正确的样本数...
2025-06-10 06:37:51 1166浏览 0点赞 0回复 0收藏
对模型的泛化性能进行评估,不仅需要有效可行的试验估计方法,还需要具有衡量模型泛化能力的评价标准,即性能度量。且在不同的任务中对比模型的性能时,使用不同的性能度量往往会导致不同的评判结果。在分类任务中,最常用的性能度量有错误率、精度、查准率、查全率、F1分数及AUCROC曲线。本文将首先介绍错误率、精度、查准率、查全率、PR曲线与平衡点及F1分数的详细原理。1.错误率与精度(1)错误率(errorrate)是分类错误的样本...
2025-05-14 00:05:30 1392浏览 0点赞 0回复 0收藏
阿里的Ma等人于2018年在论文《EntireSpaceMultiTaskModel:AnEffectiveApproachforEstimatingPostClickConversionRate》中提出了ESMM模型,用于建模电商推荐系统中点击后转化率的预估问题,同时有效缓解了样本选择偏差和数据稀疏问题。本文将从ESMM模型提出的背景、问题建模、模型原理及损失函数涉及方面进行详细的阐述。1.ESMM模型背景(1)在电商推荐系统中,用户的行为一般遵循“曝光点击转化”的顺序,ESSM主要用于建模点击...
2025-04-16 07:25:40 2381浏览 0点赞 0回复 0收藏
Transformer模型的时间复杂度主要由其核心模块自注意力机制和前馈神经网络决定,其中自注意力机制的计算复杂度占主导地位。本文将从单个矩阵乘法的时间复杂度计算出发,分析自注意力机制、多头注意力机制、前馈神经网络的时间复杂度,从而得到整个Transformer模型的时间复杂度,并说明优化方法。1.单个矩阵乘法的时间复杂度2.自注意力机制的时间复杂度3.多头自注意力机制的时间复杂度4.前馈神经网络的时间复杂度5.Transformer模...
2025-04-03 07:17:10 3030浏览 0点赞 0回复 0收藏
位置编码(PostitionalEncoding)是Transformer架构中的关键技术之一。不同于卷积神经网络利用局部感受野、共享权重和池化操作等机制,可以自然地感受输入数据的空间位置信息,也不同于循环神经网络凭借循环结构和隐藏状态的记忆与更新机制,能够隐式地捕捉输入序列中的时间顺序信息,Tranformer架构并未显式地建模输入序列中的绝对或相对位置信息,故需通过位置编码技术显式地注入位置信息,以使模型能更好地理解序列中不同位...
2025-03-24 01:12:19 2703浏览 0点赞 0回复 0收藏
快手的Chang等人于2023年在论文《PEPNet:ParameterandEmbeddingPersonalizedNetworkforInfusingwithPersonalizedPriorInformation》中正式提出了PEPNet模型,用于建模推荐系统中的多任务多领域问题。本文将从PEPNet模型提出的动机、问题建模、模型结构及工程优化策略方面进行详细的阐述。1.PEPNet模型的提出动机(1)多任务学习:出发点是不同的任务之间存在稀疏性和依赖性。但由于不同任务具有独特的稀疏性和相互影响,很难在...
2025-03-12 00:11:20 3432浏览 0点赞 0回复 0收藏
MMOE模型由谷歌研究团队于2018年在论文《ModelingTaskRelationshipsinMultitaskLearningwithMultigateMixtureofExperts》中提出,是一种新颖的多任务学习框架,广泛应用于推荐系统中。本文从技术背景、演化过程、计算原理、关键问题解析以及基于PyTorch的代码实现方面对MMoE架构进行深入探究。1.技术背景(1)多任务学习的本质是共享表示以及相关任务的相互影响,多任务学习模型并不总是在所有任务上都优于相应的单任务模型。(...
2025-02-27 12:18:03 4985浏览 0点赞 0回复 0收藏
图1DeepSeekV2&DeepSeekV3基本架构。DeepSeekMoE架构的提出源于DeepSeek发表的论文《DeepSeekMoE:TowardsUltimateExpertSpecializationinMixtureofExpertsLanguageModels》,在DeepSeekV2、V3及R1中得到了更好的应用。1.DeepSeekMoE关键技术(1)DeepSeekMoE架构有两个关键思想:细粒度专家划分和共享专家隔离。细粒度专家细分以实现更高的专家专业化程度和更准确的知识获取,共享专家隔离以减少专家之间的知识冗余。图2DeepSee...
2025-02-20 11:07:38 3154浏览 0点赞 0回复 0收藏
​DeepSeek的基本架构仍然在Transformer框架内,每个Transformer模块由一个注意力模块和一个前馈网络组成。为实现更高效的推理和更经济的训练,在注意力和前馈网络部分,设计并使用了创新的MLA(MultiHeadLatentAttention)和DeepSeekMoE架构。本文将从MLA的提出背景、技术原理、解耦RoPE策略及MHA与MLA的缓存对比方面进行详细阐述。MLA是对多头自注意力机制(MHA)的改进,其核心是对键(Keys)和值(Values)进行低秩联合压缩...
2025-02-13 12:01:11 5555浏览 0点赞 0回复 0收藏
获得成就
已积累 6787 人气
获得 0 个点赞
获得 0 次收藏