轻薄滴假象
LV.4
这个用户很懒,还没有个人简介
声望 514
关注 0
粉丝 0
私信
主帖 76
回帖
太震撼了!当各家科技公司还在追赶大模型多模态能力,把总结文本、P图等功能放进手机里的时候,遥遥领先的OpenAI直接开了大招,发布的产品连自家CEO奥特曼都惊叹:就像电影里一样。5月14日凌晨,OpenAI在首次「春季新品发布会」上搬出了新一代旗舰生成模型GPT4o、桌面App,并展示了一系列新能力。这一次,技术颠覆了产品形态,OpenAI用行动给全世界的科技公司上了一课。今天的主持人是OpenAI的首席技术官MiraMurati,她表示,今...
1天前 132浏览 0点赞 0回复 0收藏
随着深度学习大语言模型的越来越火爆,大语言模型越做越大,使得其推理成本也水涨船高。模型量化,成为一个热门的研究课题。近日,字节跳动语音团队推出一个全新的量化思路,抛弃传统的量化范式,从数学优化的角度来对量化任务建模。文章放在了arXiv,代码已经开源,可以一键复现文中的所有结果:论文链接:https:arxiv.orgabs2404.12759项目链接:https:github.combytedancedecoupleQW2算子:https:github.comNVIDIATensorRTLL...
2天前 128浏览 0点赞 0回复 0收藏
众所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个GPU。以LLaMA270B模型为例,其训练总共需要1,720,320GPUhours。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。最近,许多机构在训练SOTA生成式AI模型时报告了训练过程中的不稳定情况,它们通常以损失尖峰的形式出现,比如谷歌的PaLM模型训练过程中出现了多达20次的损失尖峰。数值偏差是造成这种训练不稳定性的潜在原因,由于大语言...
3天前 112浏览 0点赞 0回复 0收藏
今年2月初,Sora的发布让AI社区更加看到了基础扩散模型的潜力。连同以往出现的StableDiffusion、PixArtα和PixArtΣ,这些模型在生成真实图像和视频方面取得了显著的成功。这意味着开始了从经典UNet架构到基于Transformer的扩散主干架构的范式转变。值得注意的是,通过这种改进的架构,Sora和StableDiffusion3可以生成任意分辨率的样本,并表现出对scaling定律的严格遵守,即增加参数大小可以实现更好的结果。不过,推出者们只...
3天前 106浏览 0点赞 0回复 0收藏
RichardSutton在「TheBitterLesson」中做过这样的评价:「从70年的人工智能研究中可以得出的最重要教训是,那些利用计算的通用方法最终是最有效的,而且优势巨大。」自我博弈(selfplay)就是这样一种同时利用搜索和学习从而充分利用和扩大计算规模的方法。今年年初,加利福尼亚大学洛杉矶分校(UCLA)的顾全全教授团队提出了一种自我博弈微调方法(SelfPlayFineTuning,SPIN),可不使用额外微调数据,仅靠自我博弈就能大幅提升LL...
3天前 97浏览 0点赞 0回复 0收藏
20232024年,以GPT4V、Gemini、Claude、LLaVA为代表的多模态大模型(MultimodalLLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。然而,对于这些模型的评测多集中于语言上的任务,对于视觉的要求多为简单的物体识别。相对的,计算机视觉最初试图解读图像作为3D场景的投影,而不仅仅处理2D平面“模式”的数组。为响应这一情况,本文提出了BLINK,这是一个新的测试集,包含了重新构想的传统计算机...
5天前 109浏览 0点赞 0回复 0收藏
传统上,大型语言模型(LLMs)被认为是顺序解码器,逐个解码每个token。来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLLMs),能够通过在每个推断步骤中高效地解码一个ntoken序列来降低推断延迟。在此篇论文中,研究表明:「模仿人类在头脑中形成完整句子后逐字表达的认知过程,可以通过简单地微调预训练的LLMs...
5天前 145浏览 0点赞 0回复 0收藏
本论文作者赵博是加州大学圣地亚哥分校的三年级在读博士,其导师为RoseYu。她的主要研究方向为神经网络参数空间中的对称性,及其对优化、泛化和损失函数地貌的影响。她曾获DeepMind奖学金,并且是高通创新奖学金的决赛入围者。众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一发现,传送算法(teleportati...
6天前 141浏览 0点赞 0回复 0收藏
多模态融合是多模态智能中的基础任务之一。多模态融合的动机在于联合利用来自不同模态的有效信息提升下游任务的准确性和稳定性。传统的多模态融合方法往往依赖高质量数据,难以适应现实应用中的复杂低质的多模态数据。由天津大学、中国人民大学、新加坡科技研究局、四川大学、西安电子科技大学以及哈尔滨工业大学(深圳)共同发布的低质多模态数据融合综述《MultimodalFusiononLowqualityData:AComprehensiveSurvey》从统一视角...
8天前 138浏览 0点赞 0回复 0收藏
今年3月,以构建大型开源社区而闻名的AI初创公司HuggingFace,挖角前特斯拉科学家RemiCadene来领导一个新的开源机器人项目——LeRobot,引起了轰动。RemiCadene在今年三月宣布结束其三年的Tesla机器人研究生涯,并加入HuggingFace。在此之前,RemiCadene是特斯拉Autopilot和Optimus机器人研究项目的团队成员。现在,HuggingFace宣布正式推出并开源机器人工具包LeRobot,基于有史以来最大规模的众包机器人数据集。LeRobotGithub...
8天前 124浏览 0点赞 0回复 0收藏
在机器学习和计算机视觉中,让机器准确地识别和理解手和物体之间的交互动作,那是相当费劲。要么拿个杯子半天抓不到杯把:要么打开一个盒子手部跟触电了似的:抑或是各种稀奇古怪的手部「畸变」:这都是因为手物交互动作中噪声干扰,比如手和物体的遮挡等,导致机器难以获得准确的信息。那么,如何解决这些「讨厌」的噪声呢?近日,清华大学、上海人工智能实验室和上海期智研究院发布了一篇名为《GeneOHDiffusion:TowardsGenera...
8天前 160浏览 0点赞 0回复 0收藏
原文链接:https:arxiv.orgabs2403.20018项目链接:https:github.comWUCVGLSCINeRF论文标题:SCINeRF:NeuralRadianceFieldsfromaSnapshotCompressiveImage​一、引言传统的3D重建算法需要不同视角拍摄的多张图片作为输入从而重建出3D场景。近年来,有相当多的工作尝试从单张图片构建3D场景。然而,绝大多数此类工作都依赖生成式模型(如StableDiffusion),换句话说,此类工作仍然需要通过预训练的生成式模型推理场景中的3D信息...
2024-05-06 09:08:49 123浏览 0点赞 0回复 0收藏
自2021年诞生,CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高质量数据(WIT400M),而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究,但并未有研究通过对CLIP进行严格的消融实验来了解数据、模型和训练的关系。CLIP原文仅有简短的数据处理描述,而后续工作依靠已经训练好的CLIP来重新过滤数据去训练CLIP(学生)模型。更广泛地说,虽然目前的开源着重强调...
2024-05-06 09:04:59 190浏览 0点赞 0回复 0收藏
多层感知器(MLP),也被称为全连接前馈神经网络,是当今深度学习模型的基础构建块。MLP的重要性无论怎样强调都不为过,因为它们是机器学习中用于逼近非线性函数的默认方法。然而,MLP是否就是我们能够构建的最佳非线性回归器呢?尽管MLP被广泛使用,但它们存在明显的缺陷。例如,在Transformer模型中,MLP几乎消耗了所有非嵌入式参数,并且通常在没有后处理分析工具的情况下,相对于注意力层来说,它们的可解释性较差。所以,...
2024-05-06 09:02:54 176浏览 0点赞 0回复 0收藏
语言建模领域的最新进展在于在极大规模的网络文本语料库上预训练高参数化的神经网络。在实践中,使用这样的模型进行训练和推断可能会成本高昂,这促使人们使用较小的替代模型。然而,已经观察到较小的模型可能会出现饱和现象,表现为在训练的某个高级阶段性能下降并趋于稳定。最近的一篇论文发现,这种饱和现象可以通过较小模型的隐藏维度与目标上下文概率分布的高秩之间的不匹配来解释。这种不匹配通过著名的softmax瓶颈现象影...
2024-05-06 08:59:35 147浏览 0点赞 0回复 0收藏
近年来,大型语言模型(LLM)在数学应用题和数学定理证明等任务中取得了长足的进步。数学推理需要严格的、形式化的多步推理过程,因此是LLMs推理能力进步的关键里程碑,但仍然面临着重要的挑战。以往的研究工作,如思维链(CoT),揭示了中间步骤引导的有效性。然而,人工地去标注这样的中间步骤需要花费大量人力和时间成本,而自动合成的数据也容易在正确性和人类易读性上面出现问题。本文中,来自香港城市大学、中山大学、华...
2024-05-06 08:56:00 195浏览 0点赞 0回复 0收藏
对于烟雾等动态三维物理现象的高效高质量采集重建是相关科学研究中的重要问题,在空气动力学设计验证,气象三维观测等领域有着广泛的应用前景。通过采集重建随时间变化的三维密场度序列,可以帮助科学家更好地理解与验证真实世界中的各类复杂物理现象。图1:观测动态三维物理现象对科学研究至关重要。图为全球最大风洞NFAC对商用卡车实体开展空气动力学实验[1]。然而,从真实世界中快速获取并高质量重建出动态三维密度场相当困...
2024-05-06 08:44:19 150浏览 0点赞 0回复 0收藏
随着Llama3发布,未来大模型的参数量已飙升至惊人的4000亿。尽管每周几乎都有一个声称性能超强的大模型出来炸场,但AI应用还在等待属于它们的「ChatGPT时刻」。其中,AI智能体无疑是最被看好的赛道。就连吴恩达都说,GPT4加上AI智能体,可能提前达到GPT5的效果。不过,我们熟知的智能体往往有点「偏科」。例如,第一个AI软件工程师Devin,专精于代码。会打游戏的智能体往往也只能在某一个游戏里秀操作。寻找一个能够同时擅长多...
2024-05-06 08:41:19 174浏览 0点赞 0回复 0收藏
探索视频理解的新境界,Mamba模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型Mamba以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革。来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了Mamba在视频建模中的多重角色,提出了针对14种模型模块的VideoMambaSuite,在12项视频理解任务中对其进行了深入评估。结果令人振奋:Mamba在视频专...
2024-04-30 13:00:02 379浏览 0点赞 0回复 0收藏
在4月27日召开的中关村论坛通用人工智能平行论坛上,人大系初创公司智子引擎隆重发布全新的多模态大模型Awaker1.0,向AGI迈出至关重要的一步。相对于智子引擎前代的ChatImg序列模型,Awaker1.0采用全新的MOE架构并具备自主更新能力,是业界首个实现“真正”自主更新的多模态大模型。在视觉生成方面,Awaker1.0采用完全自研的视频生成底座VDT,在写真视频生成上取得好于Sora的效果,打破大模型“最后一公里”落地难的困境。Awake...
2024-04-29 12:56:23 188浏览 0点赞 0回复 0收藏
获得成就
已积累 4024 人气
获得 0 个点赞
获得 0 次收藏