51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
信创认证
公众号矩阵
移动端
视频课
免费课
排行榜
短视频
直播课
软考学堂
全部课程
软考
信创认证
华为认证
厂商认证
IT技术
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
人工智能
大模型
微软开源小模型Phi系列:技术演进、能力突破与未来展望
1.引言近年来,大型语言模型(LargeLanguageModels,LLMs)的参数规模呈现指数级增长趋势,展现出强大的通用智能,在众多自然语言处理任务上取得了突破性进展。然而,这些庞大的模型也伴随着高昂的训练成本、巨大的计算资源需求以及难以部署等问题,极大地限制了其广泛应用。为了解决这些问题,业界开始探索更加高效、轻量化的模型架构和训练方法。在这样的背景下,微软研究院机器学习基础团队另辟蹊径,推出了一系列名为“Phi”...
上堵吟1
0回复
3820浏览
微软
开源
小模型
一文汇总:长周期时序预测有哪些优化点?
1.长周期时序预测核心问题长周期时间序列预测,指的是预测窗口较长一类时间序列预测问题。一般来说,预测长度在50个点以上,就可以认为是长周期时间序列预测问题。同时,预测长度的增加,会使得模型需要引入更长的历史序列,才能实现更好的预测。相比短周期时序预测,长周期时序预测主要面临的挑战有以下几个方面。长周期历史信息提取:相比短序列,长序列由于其样本点更多,对历史信息的提取也更加困难,模型容易随着输入历史...
海因斯DK
0回复
5155浏览
长周期
时序
预测
ICLR'24 | 对比学习引入全周期时间序列信息提升长周期时序预测效果
这篇文章给大家介绍一下ICLR2024中,用对比学习强化时间序列预测的一篇工作。这篇文章是韩国KAIST发表的工作,通过在时间序列预测中引入对比学习,实现对Encoder建模窗口以外全周期时间序列信息的应用。论文标题:SELFSUPERVISEDCONTRASTIVEFORECASTING下载地址:https:arxiv.orgpdf2402.02023v1.pdf1.背景长周期时间序列预测一直是业内研究的焦点,但是现有的方法,大多数都是在一个时间窗口内建模,即将原来的时间序...
海因斯DK
0回复
5275浏览
时序
预测
全周期
四年匠心磨砺,快手系统软件技术创新与领域演进之路
原创
一、系统软件技术的核心价值与面临挑战系统软件作为软件架构的基石,扮演着连接软件与硬件的桥梁角色,位于整个软件生态的最底层,处于关键核心的位置。系统软件最为显著的特征在于其规模效应,随着服务器体量的增加,系统软件研发的价值愈发凸显。首先,系统软件技术能够显著提升服务器资源的利用率,实现翻倍效果,同时性能也能提升30%~50%,从而大幅降低公司的服务器资源成本。其次,专业的系统软件团队能够迅速定位并解决...
快手技术
0回复
2709浏览
系统软件技术
快手
JVM
协程
近期研究趋势:多变量当辅助序列提升多元时序预测效果
在多元时间序列预测中,如何建模多变量之间的关系一直是研究热点。过去一年最火的研究方向之一就是多元时间序列应该采用channeldependent(多变量联合建模)还是channelindependent(多变量独立建模),以及channeldependent的各种改进方法。近期,一种新的探索多变量建模的方法正在兴起。这类方法不再执着于用复杂的网络建模变量间关系,而是更直接一些,在预测每个变量的时间序列时,将其他所有变量都当成外部特征或者辅助序...
海因斯DK
0回复
5271浏览
预测
多元时序
多变量
Self-Attention在时间序列预测中有效吗?新Transformer架构效率效果双提升
今天给大家介绍最近的一篇探索selfattention在时间序列预测有效性的文章。本文承接AreTransformersEffectiveforTimeSeriesForecasting这篇工作,进一步指出导致Transformer在时间序列问题上效果不好的核心模块是selfattention。并提出了一种新的线性模型+crossattention结构解决,提升了长周期时序预测效果。论文标题:AreSelfAttentionsEffectiveforTimeSeriesForecasting下载地址:https:arxiv.orgpdf2405.16877v11....
海因斯DK
0回复
5438浏览
预测
时间序列
架构
AI大模型技术的四大核心架构演进之路
原创
随着人工智能技术的飞速发展,大模型技术已经成为AI领域的重要分支。本文将深入探讨四种关键的大模型技术架构:纯粹Prompt提示词法、Agent+FunctionCalling机制、RAG(检索增强生成)以及Finetuning微调技术,揭示它们的特性和应用场景。一、纯粹Prompt提示词法:构建直观交互模式纯粹Prompt提示词法是AI大模型交互的直接形式,它通过模拟自然对话,实现用户与AI的即时互动。核心特性:即时性:AI模型能够迅速响应用户输入,提...
AIGC观察者
0回复
4472浏览
大模型
RAG
Jamba-1.5:大规模混合Transformer-Mamba模型
一、结论写在前面论文标题:Jamba1.5:HybridTransformerMambaModelsatScale论文链接:https:arxiv.orgpdf2408.12570模型:https:huggingface.coai21labs论文介绍了Jamba1.5,基于Jamba架构的新型指令调优大型语言模型。Jamba是一种混合TransformerMamba专家混合架构,能够在不同上下文长度下提供高吞吐量和低内存使用,同时保持与Transformer模型相同或更好的质量。论文发布了两种模型尺寸:Jamba1.5Large,具有940亿活跃参数,...
sbf_2000
0回复
3756浏览
Transformer
Mamba
模型
一文搞懂AI大模型的四个核心技术
在日新月异的生成式AI领域,几个核心的专业术语不仅频繁出现在讨论、报告和会议中,更是技术发展的关键驱动力。它们分别是:“PromptEngineering(提示工程)”、“FunctionCalling(函数调用)”、“RAG(检索增强生成)”和“Finetuning(微调)。•PromptEngineering(提示工程):提示工程是一种技术,通过设计、实验和优化输入提示词(Prompt)来引导预训练语言模型生成所需响应或完成特定任务。它的核心在于通过精确的提...
数字化助推器
0回复
3676浏览
人工智能
大模型
Transformer在复杂推理任务中的新进展:多步逻辑推理中的匹配策略
精华
在自然语言处理(NLP)领域,Transformer是一种革命性的架构。Transformer模型因其卓越的语言理解和生成能力而成为了一个里程碑,它们在多种任务中展现出了前所未有的性能,从机器翻译到文本摘要,再到问答系统,Transformer模型已经成为了当今最先进的技术。尽管取得了巨大的成功,Transformer在执行复杂推理任务时仍面临挑战,特别是在需要多步逻辑推理的场景中。这些挑战主要表现在模型对于复杂问题的理解和解决能力上,尤其...
xuxiangda
0回复
6220浏览
Transformer
机制
系统
谷歌Gemini 2.5家族全面升级:Pro、Flash与Flash-Lite正式发布,AI推理能力再进化
原创
2025年6月17日,谷歌正式宣布其Gemini2.5混合推理模型家族迎来重大更新,包括Gemini2.5Pro、Gemini2.5Flash以及全新轻量级模型Gemini2.5FlashLite。这一系列升级不仅强化了AI的推理能力,还在性能、成本与适用场景上进行了深度优化,标志着谷歌在多模态AI领域的进一步突破。Gemini2.5FlashLite基准测试表Gemini2.5Pro:复杂推理任务的终极选择作为谷歌AI技术的旗舰产品,Gemini2.5Pro在多项基准测试中表现卓越,甚至超越OpenAI...
AI博物院
0回复
4843浏览
谷歌
Gemini 2.5
AI推理
一文揭秘GPT:AI是如何彻底改变我们的?
你是否曾好奇,是什么让手机助手能够流畅对话,是什么驱动着智能翻译的背后引擎?答案之一就是GPT。我们今天就来深入探讨一下GPT,这个正在引领语言模型革命的AI工具。什么是GPT?——人工智能的语言大师GPT,全称GenerativePreTrainingTransformer,是由OpenAI公司提出的一种先进的语言预训练模型。自从OpenAI在2018年发布首款GPT模型以来,GPT系列已经迅速成为自然语言处理领域的标杆。最初,OpenAI在论文《ImprovingLanguage...
唐克
0回复
2745浏览
GPT
AI
语言
谷歌:Transformer在音乐推荐中的实践
大模型的输入并不一定只是文本token序列,它也可以是一切需要提取前后Token相关性的场景。近日,谷歌工程师AnushyaSubbiah和VikramAggarwal在谷歌官方技术博客刊载他们将Transformer应用到音乐推荐的实践分享。他们提出了一种音乐推荐系统,该系统使用Transformer模型来更好地理解基于当前用户上下文的用户操作序列行为特性进而提升推荐体验。用户有比以往任何时候更多的选择来收听音乐。流行的服务拥有庞大而多样的类目(catal...
Syrupup
0回复
3018浏览
谷歌
音乐
推荐
谷歌性价比之王 Gemini 2.5 Flash-Lite发布:最快轻量版AI模型!
原创
今天凌晨,谷歌更新了Gemini2.5系列模型:Gemini2.5Pro、Gemini2.5Flash发布正式版并进入稳定运行阶段,并推出Gemini2.5FlashLite预览版。  Gemini2.5FlashLite在在编程、数学、科学、推理和多模态基准测试中,全面超越了2.0FlashLite,广泛任务延迟低于2.0FlashLite和2.0Flash。谷歌称这一模型为其最经济实惠、速度最快的2.5系列模型。  并且,它在翻译和分类等高容量、延迟敏感的任务中表现尤为出色。在...
算家计算
0回复
1357浏览
谷歌
Gemini 2.5
AI大模型
算家云
租算力,到算家云
Mistral放大招!新发布模型堪称性价比之王!性能优于 Llama 4,成本降低8倍!更大的开源模型即将发布
原创
社区头条
编辑|云昭出品51CTO技术栈(微信号:blog51cto)刚刚,MistralAI放大招了!沉寂许久后,这家公司推出了MistralMedium3,这是一款全新级别的AI模型,声称能够平衡SOTA性能和成本效益,同时在基准测试中胜过Meta的Llama4Maverick等竞争对手,成本却降低了一个数量级,甚至低于DeepSeek。各位不妨速览一下亮点:SOTA(当前最强)性能,在编程、跨模态理解等专业场景表现领先成本降低8倍更简化的部署方式,助力企业加速应用1.性能...
51CTO技术栈
0回复
1069浏览
Mistral
Llama 4
模型
比肩Transformer的Mamba在时间序列上有效吗?
Mamba是最近最火的模型之一,更是被业内认为可以有取代Transformer的潜力。今天介绍的这篇文章,探索了Mamba模型在时间序列预测任务上是有有效。本文首先给大家介绍Mamba的基础原理,再结合这篇文章探索在时间序列预测场景中Mamba是否有效。论文标题:IsMambaEffectiveforTimeSeriesForecasting下载地址:https:arxiv.orgpdf2403.11144.pdf1、Mamba基础原理Mamba是一种基于StateSpaceModel的结构,和RNN非常像。Mamba相...
海因斯DK
0回复
8142浏览
Transformer
SSM
Mamba
在12个视频理解任务中,Mamba先打败了Transformer
探索视频理解的新境界,Mamba模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型Mamba以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革。来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了Mamba在视频建模中的多重角色,提出了针对14种模型模块的VideoMambaSuite,在12项视频理解任务中对其进行了深入评估。结果令人振奋:Mamba在视频专...
轻薄滴假象
0回复
3777浏览
评估
模型
闲得没事,猜猜GPT-4o如何对图像编码
原创
GPT4o收取170个Token来处理在高分辨率模式512x512的图块。在0.75个tokensword的比例下,说明一张图片价值约为227个Token单词。170是一个奇怪的具体数字,OpenAI在其定价中使用“20美元”或“0.50美元”等整数,或使用2和3的幂作为其内部尺寸。为什么在这种情况下选择像170?OpenAI选择170,若不是作为某种神秘定价策略的一部分,而图像图块实际上真的被表示为170个连续嵌入向量??Transformer模型对向量进行操作,而不是离散To...
鲁班模锤1
0回复
2531浏览
GPT-4o
图像
编码
WWW 2024 | 简单却强大:揭秘Transformer在动态图建模中的魔法
论文题目:OntheFeasibilityofSimpleTransformerforDynamicGraphModeling论文链接:https:arxiv.orgpdf2401.14009.pdf代码链接:https:github.comYuxiaWuSimpleDyG论文录用:TheWebConference2024MainConference作者主页:https:yuxiawu.github.io01摘要动态图建模在理解Web图中的复杂结构方面至关重要,涉及社交网络、推荐系统等多个应用领域。现有方法主要注重结构依赖性及其时序变化模式,但通常忽...
zhangyannni
0回复
4175浏览
Transformer
Meta放大招!Llama 4三大模型来袭,开源免费还超能打
原创
精华
最近,AI领域又掀起了一阵波澜!MetaAI一次性推出了三款全新的Llama4模型,直接把开源AI的“战火”烧到了新的高度。在这个大家都忙着堆砌“闭源大模型”的时代,Meta却选择了另一条路:把强大的AI能力免费开源,让每个人都能用上。今天,咱们就来好好盘一盘这三款Llama4模型,看看它们到底有多厉害!Llama4家族:各有千秋的“三兄弟”Meta这次推出的Llama4家族,包括Scout、Maverick和Behemoth三款模型。这三款模型各有特点,从...
Halo咯咯
0回复
2952浏览
Llama 4
多模态
大模型
暂无内容
1
33
34
35
36
37
38
39
40
41
客服