南夏的算法驿站
LV.1
致力于钻研机器学习、深度学习及推荐系统相关的理论知识
声望 83
关注 0
粉丝 0
私信
主帖 9
回帖
对模型的泛化性能进行评估,不仅需要有效可行的试验估计方法,还需要具有衡量模型泛化能力的评价标准,即性能度量。且在不同的任务中对比模型的性能时,使用不同的性能度量往往会导致不同的评判结果。在分类任务中,最常用的性能度量有错误率、精度、查准率、查全率、F1分数及AUCROC曲线。01错误率与精度(1)错误率(errorrate)是分类错误的样本数占样本总数(m)的比例。计算公式可表示为:(2)精度(accuracy)是分类正确的样本数...
8天前 424浏览 0点赞 0回复 0收藏
对模型的泛化性能进行评估,不仅需要有效可行的试验估计方法,还需要具有衡量模型泛化能力的评价标准,即性能度量。且在不同的任务中对比模型的性能时,使用不同的性能度量往往会导致不同的评判结果。在分类任务中,最常用的性能度量有错误率、精度、查准率、查全率、F1分数及AUCROC曲线。本文将首先介绍错误率、精度、查准率、查全率、PR曲线与平衡点及F1分数的详细原理。1.错误率与精度(1)错误率(errorrate)是分类错误的样本...
2025-05-14 00:05:30 948浏览 0点赞 0回复 0收藏
阿里的Ma等人于2018年在论文《EntireSpaceMultiTaskModel:AnEffectiveApproachforEstimatingPostClickConversionRate》中提出了ESMM模型,用于建模电商推荐系统中点击后转化率的预估问题,同时有效缓解了样本选择偏差和数据稀疏问题。本文将从ESMM模型提出的背景、问题建模、模型原理及损失函数涉及方面进行详细的阐述。1.ESMM模型背景(1)在电商推荐系统中,用户的行为一般遵循“曝光点击转化”的顺序,ESSM主要用于建模点击...
2025-04-16 07:25:40 1469浏览 0点赞 0回复 0收藏
Transformer模型的时间复杂度主要由其核心模块自注意力机制和前馈神经网络决定,其中自注意力机制的计算复杂度占主导地位。本文将从单个矩阵乘法的时间复杂度计算出发,分析自注意力机制、多头注意力机制、前馈神经网络的时间复杂度,从而得到整个Transformer模型的时间复杂度,并说明优化方法。1.单个矩阵乘法的时间复杂度2.自注意力机制的时间复杂度3.多头自注意力机制的时间复杂度4.前馈神经网络的时间复杂度5.Transformer模...
2025-04-03 07:17:10 2016浏览 0点赞 0回复 0收藏
位置编码(PostitionalEncoding)是Transformer架构中的关键技术之一。不同于卷积神经网络利用局部感受野、共享权重和池化操作等机制,可以自然地感受输入数据的空间位置信息,也不同于循环神经网络凭借循环结构和隐藏状态的记忆与更新机制,能够隐式地捕捉输入序列中的时间顺序信息,Tranformer架构并未显式地建模输入序列中的绝对或相对位置信息,故需通过位置编码技术显式地注入位置信息,以使模型能更好地理解序列中不同位...
2025-03-24 01:12:19 2061浏览 0点赞 0回复 0收藏
快手的Chang等人于2023年在论文《PEPNet:ParameterandEmbeddingPersonalizedNetworkforInfusingwithPersonalizedPriorInformation》中正式提出了PEPNet模型,用于建模推荐系统中的多任务多领域问题。本文将从PEPNet模型提出的动机、问题建模、模型结构及工程优化策略方面进行详细的阐述。1.PEPNet模型的提出动机(1)多任务学习:出发点是不同的任务之间存在稀疏性和依赖性。但由于不同任务具有独特的稀疏性和相互影响,很难在...
2025-03-12 00:11:20 2456浏览 0点赞 0回复 0收藏
MMOE模型由谷歌研究团队于2018年在论文《ModelingTaskRelationshipsinMultitaskLearningwithMultigateMixtureofExperts》中提出,是一种新颖的多任务学习框架,广泛应用于推荐系统中。本文从技术背景、演化过程、计算原理、关键问题解析以及基于PyTorch的代码实现方面对MMoE架构进行深入探究。1.技术背景(1)多任务学习的本质是共享表示以及相关任务的相互影响,多任务学习模型并不总是在所有任务上都优于相应的单任务模型。(...
2025-02-27 12:18:03 3878浏览 0点赞 0回复 0收藏
图1DeepSeekV2&DeepSeekV3基本架构。DeepSeekMoE架构的提出源于DeepSeek发表的论文《DeepSeekMoE:TowardsUltimateExpertSpecializationinMixtureofExpertsLanguageModels》,在DeepSeekV2、V3及R1中得到了更好的应用。1.DeepSeekMoE关键技术(1)DeepSeekMoE架构有两个关键思想:细粒度专家划分和共享专家隔离。细粒度专家细分以实现更高的专家专业化程度和更准确的知识获取,共享专家隔离以减少专家之间的知识冗余。图2DeepSee...
2025-02-20 11:07:38 2571浏览 0点赞 0回复 0收藏
​DeepSeek的基本架构仍然在Transformer框架内,每个Transformer模块由一个注意力模块和一个前馈网络组成。为实现更高效的推理和更经济的训练,在注意力和前馈网络部分,设计并使用了创新的MLA(MultiHeadLatentAttention)和DeepSeekMoE架构。本文将从MLA的提出背景、技术原理、解耦RoPE策略及MHA与MLA的缓存对比方面进行详细阐述。MLA是对多头自注意力机制(MHA)的改进,其核心是对键(Keys)和值(Values)进行低秩联合压缩...
2025-02-13 12:01:11 4598浏览 0点赞 0回复 0收藏
获得成就
已积累 4669 人气
获得 0 个点赞
获得 0 次收藏