sbf_2000
LV.4
这个用户很懒,还没有个人简介
声望 416
关注 0
粉丝 1
私信
主帖 53
回帖
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、大模型要"断粮"了?最新综述揭示AI数据困境与突围之道2、IBM重磅发布Granite3.0:8B参数秒杀同级别大模型,还能随便商用!3、全球首个39语言多模态大模型开源,告别"英语霸权"1、大模型要"断粮"了?最新综述揭示AI数据困境与突围之道人工智能领域有一个有趣的悖论:模型越来越大,但优质数据的增长速度却远远跟不上。就像一...
4天前 113浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、如何让LLM学会"试错"2、LLM竟然学会了"自我反省",它真的有自我意识吗?1、如何让LLM学会"试错"你有没有想过,为什么人工智能经常会犯"愚蠢"的错误?原因可能让你意外:因为我们一直在教它"做一个完美主义者"!最新研究表明,让AI学会"试错",反而能让它变得更聪明。想象一下,如果从小到大,你只被允许看到正确答案,从来...
6天前 184浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、AI界的"小而美":MistralAI的最新力作如何重新定义边缘计算2、多智能体协作让大语言模型训练效率暴增1、AI界的"小而美":MistralAI的最新力作如何重新定义边缘计算在人工智能飞速发展的今天,一个令人振奋的消息从MistralAI传来。就在Mistral7B模型发布一周年之际,这家创新公司再次为我们带来了惊喜:Ministral3B和Ministr...
2024-10-17 15:41:00 202浏览 0点赞 0回复 0收藏
1、AI模型升级有妙招!"废物利用"让大语言模型更强大想象一下,如果能把你的旧手机变成最新的智能设备,是不是很酷?在AI领域,研究人员就实现了类似的"魔法"!他们提出了一种叫做"upcycling"的方法,可以将现有的大语言模型(LLM)升级成更强大的"专家混合模型"(MoE)。这项技术不仅能提高模型性能,还能大幅节省训练成本和时间。那么,这种"升级魔法"是如何实现的呢?研究团队进行了大量实验,探索了各种升级技巧和参数设置...
2024-10-14 14:58:35 218浏览 0点赞 0回复 0收藏
1、LLM训练的隐秘危机:1%的合成数据或致模型崩溃在LLM快速发展的今天,一个令人担忧的现象正悄然出现——模型崩溃。研究发现,即便在训练数据中仅包含1%的合成数据,也可能导致LLM模型性能严重下降,无论如何增加训练数据量都无法提升效果。更令人意外的是,增加模型规模这一当前广泛采用的方法,非但不能缓解问题,反而可能加剧模型崩溃。研究团队通过理论分析和实验证明,在某些情况下,更大的模型可能会放大这种崩溃效应。...
2024-10-14 14:56:01 197浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:Aria:第一个多模态(文本代码图像视频)MoEPixtral12B:开源多模态AI的新标杆AI教学新突破:DataEnvGym让模型自我进化1、Aria:第一个多模态(文本代码图像视频)MoE论文标题:Aria:AnOpenMultimodalNativeMixtureofExpertsModel论文链接:https:arxiv.orgabs2410.05993在人工智能领域,一个重大突破悄然发生。名为ARIA的开源模...
2024-10-11 14:14:20 233浏览 0点赞 0回复 0收藏
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期觉得比较有意思的论文:1、AI助手TutorCoPilot:让每个教师都能成为优秀导师2、Mamba模型:医学影像分析的新纪元1、AI助手TutorCoPilot:让每个教师都能成为优秀导师论文标题:TutorCoPilot:AHumanAIApproachforScalingRealTimeExpertise论文链接:​​https:arxiv.orgabs2410.03017​​人工智能正在深刻改变教育领域,而TutorCoPilot的出现无疑是一...
2024-10-08 15:56:42 219浏览 0点赞 0回复 0收藏
亲爱的读者,感谢您阅读到这里。正如我们探讨的语言模型一样,每个人都有自己的潜力和价值。认清自己,要么接受平凡,要么踏踏实实从0到1去积累资源。这世上从来没有简单的、一蹴而就的成功。无论是AI的发展还是个人的成长,都需要持续不断的努力和积累。如果您也对科技、人工智能和个人发展感兴趣,欢迎关注我们的微信公众号"AI帝国"。在这里,我们将为您揭示AI世界的帝国格局,带来最前沿的技术洞察和行业趋势,助您在这个AI...
2024-09-30 15:09:51 477浏览 0点赞 0回复 0收藏
Meta最新发布的Llama3.2不仅能"看",还能在你的手机上运行。这次更新带来了多模态支持的LlamaVision和专为设备端优化的"tiny"模型,共推出10个新模型,规模从1B纯文本到90B多模态(文本+图像)不等。Llama3.2的核心亮点:1.Llama3.2Vision:推出11B和90B两种规模的多模态模型,支持文本+图像输入并生成文本输出。这些模型基于Llama3.1文本模型,通过6B图像文本对训练而成。2.Llama3.2Edge:专为高效本地部署设计的1B和3B多语言...
2024-09-26 15:57:50 340浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:ArcticSnowCoder:DemystifyingHighQualityDatainCodePretraining论文链接:​​https:arxiv.orgpdf2409.02326​​高质量数据对于语言模型的有效预训练至关重要。然而,“高质量”的精确定义仍未得到充分探索。聚焦于代码领域,论文引入了ArcticSnowCoder1.3B,这是一个数据高效的基础代码模型,通过三个阶段的逐步精炼数据进行预训练,共处理了555Btoken:(1)使用500B个标准质量代码token进行通用预...
2024-09-19 12:48:29 443浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:InDefenseofRAGintheEraofLongContextLanguageModels论文链接:​​https:arxiv.orgpdf2409.01666​​克服早期生成式大型语言模型(LLMs)的有限上下文限制,检索增强生成(RAG)在过去一直是基于上下文的答案生成的可靠解决方案。最近,长上下文LLMs的出现使得模型能够整合更长的文本序列,使得RAG变得不那么吸引人。最近的研究表明,长上下文LLMs在长上下文应用中显著优于RAG。与现有倾向于长上下...
2024-09-14 13:15:18 352浏览 0点赞 0回复 0收藏
​一、结论写在前面论文标题:MemLong:MemoryAugmentedRetrievalforLongTextModeling论文链接:https:arxiv.orgpdf2408.16967LLMs在各个领域的最新进展取得了显著的成功。然而,由于注意力机制的二次时间和空间复杂性以及生成过程中键值缓存的内存消耗不断增加,处理长上下文仍然是LLMs的一个重大挑战。论文提出了MemLong,一种高效且轻量化的方法,用于扩展大型语言模型(LLMs)的上下文窗口。其核心思想是将过去的上下文和知...
2024-09-12 11:21:36 349浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:xLAM:AFamilyofLargeActionModelstoEmpowerAIAgentSystems论文链接:​​https:arxiv.orgpdf2409.03215​​Models:​​https:huggingface.cocollectionsSalesforcexlammodels65f00e2a0a63bbcd1c2dade4​​GitHub:​​https:github.comSalesforceAIResearchxLAM​​介绍了xLAM系列,这是一组用于自主AIagent的大型动作模型。论文的模型参数范围从1B到8x22B,通过一个可扩展且灵活的数据管道进行训练,...
2024-09-10 12:27:59 367浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:OLMoE:OpenMixtureofExpertsLanguageModels论文链接:​​https:arxiv.orgpdf2409.02060​​Weights:​​https:hf.coallenaiOLMoE1B7B0924​​Data:​​https:hf.codatasetsallenaiOLMoEmix0924​​Code:​​https:github.comallenaiOLMoE​​Logs:​​https:wandb.aiai2llmolmoereportsOLMoE1B7B0924Vmlldzo4OTcyMjU3​​论文开源了OLMoE1B7B和OLMoE1B7BINSTRUCT,包括模型、数据、代码和日志。...
2024-09-09 00:47:57 383浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:Smaller,Weaker,YetBetter:TrainingLLMReasonersviaComputeOptimalSampling论文链接:​​https:arxiv.orgpdf2408.16737​​利用来自强大语言模型(LMs)的高质量合成数据进行训练是提升LMs推理性能的常见策略。论文重新审视了在固定推理预算(例如,FLOPs)下,这一策略是否为计算最优。为此,论文探究了使用更强但更昂贵(SE)模型与较弱但更廉价(WC)模型生成合成数据之间的权衡。论文评估了生成...
2024-09-05 14:34:57 404浏览 0点赞 0回复 0收藏
​一、结论写在前面论文标题:ModelMerginginLLMs,MLLMs,andBeyond:Methods,Theories,ApplicationsandOpportunities论文链接:​​https:arxiv.orgpdf2408.07666​​项目链接:​​https:github.comEnnengYangAwesomeModelMergingMethodsTheoriesApplications​​模型合并是机器学习社区中一种高效的赋能技术,无需收集原始训练数据,也不需要昂贵的计算。随着模型合并在各个领域的日益普及,全面理解现有的模型合并技术变得至...
2024-09-03 15:16:09 539浏览 0点赞 0回复 0收藏
论文标题:ChallengesandResponsesinthePracticeofLargeLanguageModels论文链接:​​https:arxiv.orgpdf2408.09416​​一、结论写在前面论文总结了来自各行各业的广泛而深刻的问题,聚焦当前备受瞩目的AI领域,涵盖行业趋势、学术研究、技术创新和商业应用等多个维度。论文细致筛选出既发人深省又具实践意义的问题,并针对每一问题提供细致入微且富有洞察力的答案。为便于读者理解和参考,论文特将这些问题从计算力基础设施、...
2024-09-02 02:10:47 502浏览 0点赞 0回复 0收藏
图片一、结论写在前面论文来自北京大学、浙江大学、蚂蚁集团、中国人民大学、美国罗格斯大学论文标题:GraphRetrievalAugmentedGeneration:ASurvey论文链接:​​https:arxiv.orgpdf2408.08921​​通过参考外部知识库,RAG优化了LLM输出,有效缓解了“幻觉”、缺乏领域特定知识及信息过时等问题。然而,数据库中不同实体间复杂的关系结构给RAG系统带来了挑战。为此,图RAG(GraphRAG)利用实体间的结构信息,实现更精确全面的检...
2024-08-29 16:03:48 468浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:Jamba1.5:HybridTransformerMambaModelsatScale论文链接:https:arxiv.orgpdf2408.12570模型:https:huggingface.coai21labs论文介绍了Jamba1.5,基于Jamba架构的新型指令调优大型语言模型。Jamba是一种混合TransformerMamba专家混合架构,能够在不同上下文长度下提供高吞吐量和低内存使用,同时保持与Transformer模型相同或更好的质量。论文发布了两种模型尺寸:Jamba1.5Large,具有940亿活跃参数,...
2024-08-27 13:30:53 501浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:ConciseThoughts:ImpactofOutputLengthonLLMReasoningandCost论文链接:​​https:arxiv.orgpdf2407.19825​​当今的大型语言模型(LLMs)能够解决具有挑战性的问答任务,而诸如思维链(CoT)等提示工程技术因其增强输出解释和正确性而受到关注。然而,模型生成附带详细推理细节的答案需要大量时间。为了解决这一问题,本文分析了输出长度对LLM推理管道的影响,并提出了新的指标来评估其正确简洁性。...
2024-08-16 14:48:58 512浏览 0点赞 0回复 0收藏
获得成就
已积累 8556 人气
获得 1 个点赞
获得 0 次收藏