海因斯DK
LV.4
这个用户很懒,还没有个人简介
声望 435
关注 0
粉丝 1
私信
主帖 46
回帖
今天给大家介绍一篇港中文、上海AILab等机构联合发表的CLIP优化工作,构建了基于多专家网络的MoE模型,实现更细粒度的视觉表征器训练,提升下游多模态大模型论文标题:CLIPMOE:TOWARDSBUILDINGMIXTUREOFEXPERTSFORCLIPWITHDIVERSIFIEDMULTIPLETUPCYCLING下载地址:​​https:arxiv.orgpdf2409.19291v2​​1.背景基于CLIP的图文对比学习预训练是构建多模态大模型的一个核心基础模块。通过图片和文本的对比学习过程,训练图片和文...
3天前 135浏览 0点赞 0回复 0收藏
今天给大家介绍一篇华东师范大学联合丹麦奥尔堡大学和松鼠AI发布的时间序列模型统一评测基准FoundTS,这是一个针对时间序列预测基础模型的基准测评框架,旨在利用不同领域和特征的数据集对不同的时间序列预测基础模型进行全面、公平的测评。该论文在统一评测结果的基础上,分析了现有时序预测基础模型的优缺点,并为基础模型的提升提出一些可行的方向。论文标题:FOUNDTS:COMPREHENSIVEANDUNIFIEDBENCHMARKINGOFFOUNDATIONMODEL...
5天前 188浏览 0点赞 0回复 0收藏
今天这篇文章给大家介绍几篇KDD2024中,大厂在推荐系统领域的优化工作,论文来自爱彼迎、腾讯、快手、美团等公司,设计多目标建模、多样性、搜索意图建模、rankingloss等问题。1.爱彼迎:多目标建模和模型蒸馏论文标题:MultiobjectiveLearningtoRankbyModelDistillation下载地址:https:arxiv.orgpdf2407.07181多目标建模转换成模型蒸馏问题。多目标的场景要求最小化一个目标的预测误差,同时其他目标的预估误差在一个约束内。...
9天前 261浏览 0点赞 0回复 0收藏
今天给大家介绍一篇清华大学的时间序列预测最新工作,提出了统一的Transformer时序预测模型,能同时处理单变量和多变量时序预测,并将时序预测的上下文长度首次扩充到千级别。论文标题:TIMERXL:LONGCONTEXTTRANSFORMERSFORUNIFIEDTIMESERIESFORECASTING下载地址:​​https:arxiv.orgpdf2410.04803v1​​1.背景构建类似NLP领域的统一大模型是时序预测领域近期研究的焦点。虽然前序已经涌现很多工作,但是这些建模方法只能处理...
2024-10-16 15:44:59 223浏览 0点赞 0回复 0收藏
今天给大家介绍一篇时空预测最新模型PredFormer,由上海交大等多所高校发表,采用纯Transformer模型结构,在多个数据集中取得SOTA效果。1.背景时空预测学习是一个拥有广泛应用场景的领域,比如天气预测,交通流预测,降水预测,自动驾驶,人体运动预测等。提起时空预测,不得不提到经典模型ConvLSTM和最经典的benchmarkmovingmnist,在ConvLSTM时代,对于MovingMNIST的预测存在肉眼可见的伪影和预测误差。而在最新模型PredForme...
2024-10-12 14:29:23 448浏览 0点赞 0回复 0收藏
这篇文章给大家介绍一下阿里发表的多模态大模型工作mPLUGOwl,共2篇文章,建立在前序图像表征对齐预训练大语言模型的思路,提出了不同的参数训练方式、多模态解耦映射等优化方法,在多项任务取得了SOTA效果。相关论文:mPLUGOwlLanguageModelswithMultimodalitymPLUGOwl2:RevolutionizingMultimodalLargeLanguageModelwithModalityCollaboration1.核心思路多模态大模型希望构建一个能同时处理文本、图像等不同模态信息的数据,...
2024-10-10 14:48:48 255浏览 0点赞 0回复 0收藏
时间序列预测建模中,非平稳性或distributionshift一直是一个建模难点。非平稳性指的是时间序列的统计量,如均值、方差随时间发生变化,导致数据分布随着时间发生漂移,造成了模型训练和拟合的难度。今天给大家介绍一下最近一段时间提出的2种解决时间序列非平稳性问题的方法。这两种方法分别从多粒度的角度和频域的角度进行可逆归一化,实现了不错的效果提升。1.基础可逆归一化方法可逆归一化最基础的方法来自REVERSIBLEINSTANC...
2024-10-08 14:31:05 447浏览 0点赞 0回复 0收藏
今天给大家介绍一篇普林斯顿大学提出的时间序列大模型工作,是首个基于MoE的百万级别参数时间序列大模型,将时序大模型参数量扩展到2.4billion的水平,在多个数据集上取得了显著优于其他时间序列大模型的效果。论文标题:TIMEMOE:BILLIONSCALETIMESERIESFOUNDATIONMODELSWITHMIXTUREOFEXPERTS下载地址:https:arxiv.orgpdf2409.16040v11、背景时间序列大模型是目前的一个研究热点,很多工作都利用大量的时间序列数据训练专属于...
2024-09-29 15:24:29 407浏览 0点赞 0回复 0收藏
在CTR预估中,主流都采用特征embedding+MLP的方式,其中特征非常关键。然而对于相同的特征,在不同的样本中,表征是相同的,这种方式输入到下游模型,会限制模型的表达能力。为了解决这个问题,CTR预估领域提出了一系列相关工作,被称为特征增强模块。特征增强模块根据不同的样本,对embedding层的输出结果进行一次矫正,以适应不同样本的特征表示,提升模型的表达能力。最近,复旦大学和微软亚研院联合发布了一篇特征增强工作...
2024-09-25 12:27:21 324浏览 0点赞 0回复 0收藏
时间序列建模中很多种类型的结构可以选择,比如Transformer、CNN、RNN,以及最近被验证有效的MLP、Mamba等结构。然而,不同模型都有特定的潜在优势和劣势。因此,现在越来越多的时序预测模型优化工作,采用了多模型组合的建模方式。今天这篇文章,就给大家介绍一下多模型组合建模的核心思路,以及几篇近期发表的多模型组合时序预测工作,在一个模型中同时使用不同类型的模型结构,实现各个结构之间的优势互补。1.早期模型组合建...
2024-09-23 09:56:47 363浏览 0点赞 0回复 0收藏
1.长周期时序预测核心问题长周期时间序列预测,指的是预测窗口较长一类时间序列预测问题。一般来说,预测长度在50个点以上,就可以认为是长周期时间序列预测问题。同时,预测长度的增加,会使得模型需要引入更长的历史序列,才能实现更好的预测。相比短周期时序预测,长周期时序预测主要面临的挑战有以下几个方面。长周期历史信息提取:相比短序列,长序列由于其样本点更多,对历史信息的提取也更加困难,模型容易随着输入历史...
2024-09-11 11:03:22 572浏览 0点赞 0回复 0收藏
Transformer的序列建模能力,让其天然就比较适合时间序列这种也是序列类型的数据结构。但是,时间序列相比文本序列也有很多特点,例如时间序列具有自相关性或周期性、时间序列的预测经常涉及到周期非常长的序列预测任务等。这些都给Transformer在时间序列预测场景中的应用带来了新的挑战,也使业内出现了一批针对时间序列任务的Transformer改造。下面给大家介绍Transformer在时间序列预测中的应用,基本上按照时间顺序,到2023...
2024-09-06 14:43:33 957浏览 0点赞 0回复 0收藏
今天给大家介绍两篇经典的工作,这两篇工作都是针对推荐系统中排序模型的优化,方法有一些相似之处,都是利用门控网络对底层特征进行交叉。最关键的在于,这类方法已经在很多真实业务场景中被验证效果显著,非常值得还没有应用这类方法的同学进行尝试。1.MaskNet论文标题:MaskNet:IntroducingFeatureWiseMultiplicationtoCTRRankingModelsbyInstanceGuidedMask下载地址:​​https:arxiv.orgabs2102.07619​​MaskNet是2021年...
2024-08-28 14:41:39 405浏览 0点赞 0回复 0收藏
扩散模型是目前生成式AI中的最核心模块,在Sora、DALLE、Imagen等生成式AI大模型中都取得了广泛的应用。与此同时,扩散模型也被越来越多的应用到了时间序列中。这篇文章给大家介绍了扩散模型的基本思路,以及几篇扩散模型用于时间序列的典型工作,带你理解扩散模型在时间序列中的应用原理。1、扩散模型建模思路生成模型的核心是,能够从随机简单分布中采样一个点,并通过一系列变换将这个点映射到目标空间的图像或样本上。扩散...
2024-08-21 09:54:16 1045浏览 0点赞 0回复 0收藏
今天给大家介绍一篇CIKM2024中的时间序列预测工作,这篇文章针对高维多变量时序预测问题,提出了一种基于Transformer的建模方法。论文标题:ScalableTransformerforHighDimensionalMultivariateTimeSeriesForecasting下载地址:​​https:arxiv.orgpdf2408.04245v1​​1.背景现在的时间序列预测主要研究点都是如何扩长能够建模的历史长度和未来长度,也就是时间维度上的扩展。比较少的工作研究如何建模变量维度上的扩展。在多变...
2024-08-19 09:14:05 645浏览 0点赞 0回复 0收藏
频率是时间序列的一个重要信息。给定一个时间序列,可以通过按照不同频率的聚合,获得不同粒度的时间序列。比如,给定的原始时间序列是以小时为粒度的,那么通过将24个点加和成1个点,就可以形成以天为粒度的时间序列数据。不同的粒度,包含的信息也不同。粒度越细,越能体现时间序列的局部特征,同时噪声也更大;粒度越粗,序列更加平滑,反应了时间序列的全局特性,噪声较少,但是也损失了很多信息。由于粒度的粗粒,所有含的...
2024-08-13 00:51:27 763浏览 0点赞 0回复 0收藏
今天这篇文章介绍的主题是推荐系统中,基于两阶段的超长周期用户兴趣建模系列工作。主要介绍业内比较有代表性的由快手发表的3篇工作,从2020年最开始的SIM首次提出的两阶段行为序列建模方法,到2022年KDD上发表的TWIN对两阶段一致性的优化,再到2024年CIM上提出的在TWIN基础上引入层次聚类进一步释放长周期建模能力。1.背景在推荐系统的排序模型中,用户行为序列建模部分的迭代一直是最核心的收益来源。用户行为序列建模迭代,...
2024-08-06 10:18:58 734浏览 0点赞 0回复 0收藏
今天介绍一篇NIPS2023中上海交大和蚂蚁集团联合发表的时间序列预测文章,基于basis的时间序列建模。目前代码已经开源,论文的详细信息如下。论文标题:BasisFormer:AttentionbasedTimeSeriesForecastingwithLearnableandInterpretableBasis下载地址:​​https:arxiv.orgpdf2310.20496v1.pdf​​机构:上海交大开源代码:​​https:github.comnzl5116190Basisformer​​1.基于Basis的时序预测在时序预测中,basis指的是从时间序...
2024-08-02 14:24:41 534浏览 0点赞 0回复 0收藏
今天这篇文章给大家介绍一下推荐系统中预估模型的oneepoch问题,以及相应的解法。主要来源于两项工作,一个是由阿里发表的论文TowardsUnderstandingtheOverfittingPhenomenonofDeepClickThroughRatePredictionModels(2022)中提出的oneepoch问题这一现象,另一是由快手发表的论文MultiEpochlearningwithDataAugmentationforDeepClickThroughRatePrediction(2024)中提出的oneepoch问题的解法。1.Oneepoch现象工业界的CTR预估...
2024-07-30 00:56:02 884浏览 0点赞 0回复 0收藏
今天给大家介绍一篇清华大学关于深度时序模型的最新综述性工作。这篇文章的着眼点是深度时间序列模型的模型结构方面,提供了各类时间序列问题的深度学习模型结构发展过程和效果对比,并提供了一套复现各类深度时序模型的开源代码,目前git上已经5k+个star。下面整体介绍一下本文的核心内容,包括任务类型、基础模块、模型结构、Benchmark、实验评估等5个部分。其中,开源代码的代码解析,已经逐步更新到了知识星球中,感兴趣的...
2024-07-26 11:01:59 1018浏览 0点赞 0回复 0收藏
获得成就
已积累 1.2w 人气
获得 0 个点赞
获得 1 次收藏