海因斯DK
LV.4
这个用户很懒,还没有个人简介
声望 680
关注 0
粉丝 5
私信
主帖 78
回帖
今天给大家介绍一篇阿里巴巴在WWW2025上发表的搜索场景CTR预估模型的工作,将相关性和CTR预估联合建模,提升搜索场景下的推荐效果。论文标题:PRECTR:ASynergisticFrameworkforIntegratingPersonalizedSearchRelevanceMatchingandCTRPrediction下载地址:https:arxiv.orgpdf2503.183951.研究背景在搜索场景中,不仅需要做好如CTR等点击率的预估,也需要做好相关性的预估,保证推荐出的结果和用户搜索词的相关性满足要求,否则会...
8h前 155浏览 0点赞 0回复 0收藏
在之前的文章中,我们在文章​​DeepSeek简明解析,10分钟速通DeepSeekV1V3核心技术点!​​中介绍了从DeepSeekv1到DeepSeekv3的模型升级之路。那么目前在国内外大火的DeepSeekR1和之前的DeepSeek是什么关系呢?今天这篇文章就用简明的语言给大家介绍一下DeepSeekR1的核心技术点。DeepSeekR1是基于DeepSeekV3模型进一步进行训练得到的,其核心优化在于训练方式上。通过深度思维链文本进行强化学习、并让模型自己生成高质量的SFT...
2025-07-31 00:47:43 1234浏览 0点赞 0回复 0收藏
今天给大家介绍一篇关于如何在深度模型中引入外部变量的时间序列预测工作,通过crossattention灵活引入多种类型的外部变量补充信息,提升时序预测效果。论文标题:CITRAS:CovariateInformedTransformerforTimeSeriesForecasting下载地址:https:arxiv.orgpdf2503.240071.研究背景现有的时间序列预测模型,大多数都是在优化待预测变量的关系建模方式上。例如一些transformer模型,核心都是通过不同的attention方式建模每个时间步...
2025-07-10 06:30:22 1202浏览 0点赞 0回复 0收藏
今天给大家介绍一篇ICML2025中比较有意思的论文,这篇文章深入研究了Transformer在时间序列中为什么有效,以及什么情况下效果比较差,Transformer中的哪些结构对于时间序列预测最有效。论文标题:ACloserLookatTransformersforTimeSeriesForecasting:UnderstandingWhyTheyWorkandWhereTheyStruggle下载地址:​​https:papers.coolvenuekHEVCfES4QOpenReview​​1.研究背景基于Transformer的时间序列预测是目前的主流方法,具体...
2025-07-10 06:27:30 1329浏览 0点赞 0回复 0收藏
今天给大家介绍一篇ICML2025的时间序列预测工作,提出了一个轻量级、兼容不同类型数据的周期性差异的时间序列基础模型,在Zeroshotlearning、Fullshotlearning等场景中都取得了显著效果提升。论文标题:LightGTS:ALightweightGeneralTimeSeriesForecastingModel下载地址:​​https:arxiv.orgpdf2506.06005​​1.研究背景时间序列基础模型希望构建类似LLM的时序领域通用模型,在大量多样性的数据集上预训练,训练好的模型在下游...
2025-06-25 08:04:46 1022浏览 0点赞 0回复 0收藏
今天给大家介绍一篇中科大、腾讯联合发表的CTR预估模型优化工作,探索了多专家网络多样性对于模型效果的影响。论文标题:EnhancingCTRPredictionwithDecorrelatedExpertNetworks下载地址:​​https:arxiv.orgpdf2505.17925​​1.研究背景最近两年,随着ScalingLaw在各个领域的研究,推荐系统领域也开始逐渐引入这种思想进一步提升模型能力。其中,一种常见的思路是利用MoE扩大参数空间,并结合多种类型的网络结构构建预估模型...
2025-06-25 07:49:53 1467浏览 0点赞 0回复 0收藏
今天给大家介绍的这篇文章来自KDD2025,提出了一种适用于时间序列的数据增强方法,核心思路是在频域进行重要成分的保留和非重要成分的变换,使得增强后的数据既能保证和原始数据语义相同,又能提升数据的多样性。论文标题:FreRA:AFrequencyRefinedAugmentationforContrastiveLearningonTimeSeriesClassification下载地址:​​https:arxiv.orgpdf2505.23181v1​​1.研究背景数据增强是深度学习中常用的一种方法,特别是在对比...
2025-06-12 06:54:27 1565浏览 0点赞 0回复 0收藏
今天给大家介绍一篇针对多变量预测单变量场景的时间序列预测优化工作。本文的核心是构建了一种基于卷积的轻量级变量间关系学习模块,提升变量间关系学习效率和缓解过拟合问题,提升多变量预测单变量的效果。论文标题:CrossLinear:PlugandPlayCrossCorrelationEmbeddingforTimeSeriesForecastingwithExogenousVariables下载地址:​​https:arxiv.orgpdf2505.23116v1​​1.研究背景时间序列预测有多种问题类型。单变量时间序列...
2025-06-12 06:51:49 1525浏览 0点赞 0回复 0收藏
今天给大家介绍一篇最近东南大学发表的长周期时间序列预测工作。这篇文章的侧重点也是多尺度建模,但和以往工作侧重对输入进行多尺度处理不同,本文的核心是引入多尺度的预测,并对不同尺度预测结果进行变量粒度个性化的加权融合。论文标题:AMultiscaleRepresentationLearningFrameworkforLongTermTimeSeriesForecasting下载地址:​​https:arxiv.orgpdf2505.08199​​1、研究背景多元长周期时序预测是时间序列预测中比较有挑...
2025-05-30 05:05:33 1152浏览 0点赞 0回复 0收藏
今天给大家介绍一篇使用大语言模型结合知识蒸馏方法,构建高效轻量级时间序列预测模型的方法。文中基于大语言模型通过多模态建模优化适配到时间序列数据,并进一步通过优势知识蒸馏将大模型信息蒸馏到小模型中,实现模型尺寸不变而具备大模型知识的目的,提升时序预测效果。论文标题:EfficientMultivariateTimeSeriesForecastingviaCalibratedLanguageModelswithPrivilegedKnowledgeDistillation下载地址:​​https:arxiv.org...
2025-05-19 00:18:05 1535浏览 0点赞 0回复 0收藏
今天给大家介绍一篇ICLR2025中关于时间序列异常检测的工作。这篇文章采用基于MemoryBank和Prototype的异常检测方法,提出在此基础上引入多尺度patch和多周期性的建模方法,进一步提升时间序列异常检测效果。论文标题:LEARNHYBRIDPROTOTYPESFORMULTIVARIATETIMESERIESANOMALYDETECTION下载地址:​​https:openreview.netpdfid8TBGdH3t6a​​1.研究背景时间序列异常检测的主流方法,是使用正常的时间序列训练一个自编码器,序列...
2025-04-30 06:35:31 2875浏览 0点赞 0回复 0收藏
在这一节,重点展开为大家梳理在大模型之前的GPT、BERT等深度语言模型的发展过程。在大模型之前,预训练语言模型是NLP中的核心,在pretrainfinetune这一阶段的NLP发展中发挥着举足轻重的作用。预训练语言模型的无监督训练属性,使其非常容易获取海量训练样本,并且训练好的语言模型包含很多语义语法知识,对于下游任务的效果会有非常明显的提升。本文首先介绍预训练语言模型的里程碑方法,然后进一步介绍针对预训练语言模型中的...
2025-04-08 01:03:28 1879浏览 0点赞 0回复 0收藏
今天给大家介绍一篇时间序列大模型研究工作。这项工作基于预训练的语言模型,增强时间序列预测效果,文中提出了多层次、多频率表征抽取和语义对齐模块,实现LLM在时间序列数据形式上更好的应用。论文标题:LLMPS:EmpoweringLargeLanguageModelsforTimeSeriesForecastingwithTemporalPatternsandSemantics下载地址:​​https:arxiv.orgpdf2503.09656​​1.研究背景使用大模型进行时间序列预测已经成为一个目前的热点研究方向。...
2025-03-26 00:52:59 3907浏览 0点赞 0回复 0收藏
在这个系列文章中,我会用通俗的语言,为大家介绍学习大模型的核心知识点。读完这个系列的文章,你会深入理解语言大模型、多模态大模型的核心技术点,包括模型结构、训练方式、数据处理、多模态融合等。大模型的前身是语言模型,圆圆是很早就开始在工业界研究和应用语言模型的一批人,因此对整个深度学习时代语言模型的发展历程都有见证。当时还没有Transformer、BERT,只有LSTM、Attention这种结构。工业界效果最好、应用最稳...
2025-03-14 00:04:17 2944浏览 0点赞 0回复 0收藏
今天给大家介绍一篇华为最近发表的时间序列分类大模型工作,填补了专门用于时间序列分类的大模型工作空白,借鉴了VisionTransformer的训练方式和模型结构,迁移到时间序列分类任务中,在多种类型的数据集上取得了不错的效果。推荐阅读:​​​2024时序预测都有哪些经典工作——汇总篇​​,2024时间序列预测相关最新SOTA工作汇总,涉及模型结构、表示学习、频域信息、扩散模型10余个专题。论文标题:Mantis:LightweightCalibrat...
2025-03-03 13:37:50 5025浏览 0点赞 0回复 0收藏
今天给大家介绍一片最新的多模态时间序列预测工作。这篇文章采用了时间序列、图像、文本三种模态的数据形式,进行时间序列预测,增强底层信息的输入,提升时序预测效果。论文标题:TimeVLM:ExploringMultimodalVisionLanguageModelsforAugmentedTimeSeriesForecasting下载地址:​​https:arxiv.orgpdf2502.04395​​1.研究背景传统的时间序列预测方法,都是最基础的时间序列形式数据进行建模的。然而,最近一些工作将文本信息...
2025-02-21 11:31:20 8302浏览 0点赞 0回复 0收藏
今天给大家介绍一篇视频多模态大模型工作,这篇文章的核心是探索了在现有的SOTA视频多模态大模型中,引入显示的视频时序建模提升模型的视频理解能力。论文标题:ExploringtheRoleofExplicitTemporalModelinginMultimodalLargeLanguageModelsforVideoUnderstanding下载地址:​​https:arxiv.orgpdf2501.16786​​1.研究背景传统的时间序列预测方法,都是最基础的时间序列形式数据进行建模的。然而,最近一些工作将文本信息、图...
2025-02-21 11:21:32 3262浏览 0点赞 0回复 0收藏
LLaMA是目前很多SOTA开源大模型的基础,包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。因此,LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。这篇文章就给大家汇总一下LLaMA的核心模型结构。LLaMA的主体结构仍然基于Transformer,本文主要介绍LLaMA各个版本相比于Transformer的改进部分,包括PreNormalization、RMSNorm、SwiGLU激活函数、RotrayEmbedding等部分。1.PreNormalization基础的T...
2025-02-13 13:00:58 3453浏览 0点赞 0回复 0收藏
最近,DeepSeek在国际上很火,一方面其效果比肩非开源模型ChatGPT,另一方面其运行成本很低。可以说,DeepSeek是目前为止最先进的大模型之一。今天这篇文章,就带大家梳理一下从2024年至今DeepSeek发布的V1版本到V3版本的核心技术点,看看DeepSeek采用了哪些技术构建了最先进的大模型,每一次的升级基本都伴随着训练数据的优化、模型结构的升级、优化方式的更新。为了方便大家阅读,本文会用比较简洁的语言进行主要技术的介绍,...
2025-02-05 17:58:01 9816浏览 0点赞 0回复 0收藏
今天这篇文章给大家汇总市面上的各类LargeLanguageModel,从模型角结构的角度、模型类型的角度进行划分,涵盖了目前市面上主流的LLM,一文了解各个LLM的基本实现方法和关系。从基础模型结构的角度,预训练语言模型可以分为Encoderonly、Decoderonly、EncoderDecoder三种类型。从市面上的LLM类型来看,可以分为GPT、LLaMA、PaLM等3个最主要的类型。下面,将这6个类别的模型,以及其中各个模型之间的关系给大家详细介绍一下。1.模...
2025-01-21 14:00:44 4603浏览 0点赞 0回复 0收藏
获得成就
已积累 7.6w 人气
获得 1 个点赞
获得 2 次收藏