sbf_2000
LV.2
这个用户很懒,还没有个人简介
声望 128
关注 0
粉丝 0
私信
主帖 19
回帖
一、结论写在前面下面介绍的论文来自:电子科技大学、新加坡科技设计大学、同济大学、新加坡国立大学。论文标题:MathLLaVA:BootstrappingMathematicalReasoningforMultimodalLargeLanguageModels论文链接:​​https:arxiv.orgpdf2406.17294​​代码和数据:​​https:github.comHZQ950419MathLLaVA​​。LLMs在文本数学问题解决方面展示了令人印象深刻的推理能力。然而,现有的开源图像指令微调数据集,每个图像包含有限的问...
1天前 77浏览 0点赞 0回复 0收藏
一、结论写在前面下面介绍的论文是微软发表的。论文标题:IsAPictureWorthAThousandWordsDelvingIntoSpatialReasoningforVisionLanguageModels论文链接:​​https:arxiv.orgpdf2406.14852​​大语言模型(LLMs)和视觉语言模型(VLMs)在广泛的任务和领域中展示了卓越的性能。尽管有此潜力,空间理解和推理——人类认知的基本组成部分——仍然未被充分探索。论文开发了涵盖空间推理多样方面(如关系理解、导航和计数)的新颖基...
1天前 55浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:Web2Code:ALargescaleWebpagetoCodeDatasetandEvaluationFrameworkforMultimodalLLMs论文链接:​​https:arxiv.orgpdf2406.20098​​项目链接:​​https:mbzuaillm.github.iowebpage2code​​多模态大型语言模型(MLLMs)在图像、视频和音频等多种模态的理解和生成任务中展现了显著的成功。然而,现有的MLLMs在理解网页截图并生成相应HTML代码方面表现惊人地差。为了解决这一问题,这是一个由高质...
4天前 164浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自:清华大学,西湖大学,香港中文大学论文标题:KnowledgeConflictsforLLMs:ASurvey论文链接:​​https:arxiv.orgpdf2403.08319​​论文广泛探讨了知识冲突,阐明了其分类、成因、LLMs对这些冲突的响应方式及可能的解决方案,强调了在融合上下文知识和参数知识时所遇到的复杂挑战。论文的研究重点是三类知识冲突:上下文记忆冲突、跨上下文冲突和内存内冲突。这些冲突显著影响LLMs的可信度和性能,特别...
8天前 232浏览 0点赞 0回复 0收藏
一、结论写在前面下面介绍的论文来自上海交大、上海AIlib。论文标题:OlympicArena:BenchmarkingMultidisciplineCognitiveReasoningforSuperintelligentAI论文链接:​​https:arxiv.orgpdf2406.12753​​项目链接:​​https:gairnlp.github.ioOlympicArena​​图1:AI从高考[57]现场参与奥运会为了全面评估当前模型在认知推理能力方面的表现,论文引入了OlympicArena,这是一个包含11,163个双语文本问题的基准,涵盖纯文本和...
2024-07-01 12:53:29 212浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自香港城市大学、华为诺亚方舟实验室。论文标题:LLMenhancedRerankinginRecommenderSystems论文链接:​​https:arxiv.orgpdf2406.12433​​重排序是推荐系统中的关键组件,对精炼推荐算法的输出起着至关重要的作用。传统的重排序模型主要关注准确性,但现代应用要求考虑多样性和公平性等额外标准。现有的重排序方法往往在模型层面未能有效地调和这些多样化的标准。此外,这些模型由于其复杂性和不同场...
2024-07-01 12:25:17 230浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:TaskMeAnything论文链接:​​https:arxiv.orgpdf2406.11775​​项目链接:​​https:www.taskmeanything.org​​大多模态语言模型(MLMs)的基准现在同时评估模型的通用能力,而不是针对特定能力的评估。因此,当开发者想要确定哪些模型适用于他们的应用时,他们会被众多的基准所淹没,并且不确定哪个基准的结果最能反映他们的具体用例。论文介绍了TASKMEANYTHING,一个基准生成引擎,它能够根据用...
2024-06-27 16:00:02 217浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自GoogleDeepMind。论文标题:NATURALPLAN:BenchmarkingLLMsonNaturalLanguagePlanning论文链接:​​https:arxiv.orgpdf2406.04520​​论文提出了NATURALPLAN,一个包含三个关键任务(旅行规划、会议规划和日历调度)的自然语言现实规划基准。论文的评估重点在于LLMs在完全了解任务情况下的规划能力,通过提供来自GoogleFlights、GoogleMaps和GoogleCalendar等工具的输出作为模型的上下文。这消除了在规...
2024-06-21 16:02:02 234浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:ASoftwareEngineeringPerspectiveonTestingLargeLanguageModels:Research,Practice,ToolsandBenchmarks论文链接:​​https:arxiv.orgpdf2406.08216​​LLMs正迅速成为无处不在的工具,既是独立工具,也是当前和未来软件系统的组件。为了在2030年的高风险或安全关键系统中使用LLMs,它们需要经过严格的测试。软件工程(SE)对机器学习(ML)组件和基于ML的系统测试的研究已经系统地探讨了许多主题,...
2024-06-19 11:15:16 324浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自阿里巴巴。论文标题:BoostingLargescaleParallelTrainingEfficiencywithC4:ACommunicationDrivenApproach论文链接:​​https:arxiv.orgpdf2406.04594​​LLMs的出现促使了并行训练技术的采用,涉及部署数千个GPU来训练单一模型。不幸的是,论文发现当前的并行训练效率往往不理想,主要原因有两点。首先,硬件故障不可避免,导致训练任务中断。无法快速识别故障组件导致大量GPU资源的浪费。其次,由于...
2024-06-17 10:24:28 399浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自MetaRealityLabs、FAR、Meta、HKUST、HKUST(GZ)论文标题:CRAGComprehensiveRAGBenchmark论文链接:​​https:arxiv.orgpdf2406.04744​​​检索增强生成(RetrievalAugmentedGeneration,RAG)最近作为一种有前景的解决方案出现,以缓解大型语言模型(LLM)在知识缺乏方面的不足。然而,现有的RAG数据集并未充分代表真实世界问答(QA)任务的多样性和动态性。为了弥合这一差距,论文引入了综合性RAG基...
2024-06-17 10:18:50 562浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自复旦自然语言处理实验室&复旦视觉与学习实验室论文首次尝试构建具有自我演化能力的通用LLM基础agent。论文确定了三个关键要素:1)多样化的环境供agent探索学习;2)一套轨迹集赋予agent基本能力和先验知识;3)一种有效且可扩展的演化方法。论文提出了AGENTGYM框架,一个包含多样化环境、任务和目标的交互平台,专为LLM基础agent设计。AGENTGYM通过HTTP服务提供便捷的API,标准化任务规范、环境设置以...
2024-06-13 12:17:56 460浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自Microsoft。微调大语言模型是用户尝试将其适应特定应用的流行选择。然而,微调这些模型是一项艰巨的任务,因为用户必须考虑多种因素,如资源预算、运行时间、模型大小和上下文长度等。一个具体挑战是微调过程对内存的需求很大,这限制了所需的硬件内存和能够处理的训练数据上下文长度。论文分享了针对不同微调场景的各种微调优化的详细研究。特别是,论文评估了梯度检查点(GradientCheckpointing)、...
2024-06-13 12:05:13 441浏览 0点赞 0回复 0收藏
一、结论写在前面在强化学习人类反馈(RLHF)中,有效对齐大型语言模型(LLMs)与以人为中心的价值,同时防止通过预训练和监督微调(SFT)获得的能力退化,是一个核心挑战。插值RLIF和SFT模型参数可以调整人类偏好与基本能力之间的权衡,从而以牺牲对齐奖励为代价减少对齐开销(AlignmentTax)。受此启发,论文提出在RLHF的每个优化步骤中整合RL策略和SFT模型,以持续调节训练方向,引入在线合并优化器。具体而言,论文通过合并SF...
2024-06-07 12:59:44 322浏览 0点赞 0回复 0收藏
一、结论写在前面传统的推荐系统通过学习和强化过去的用户物品交互形成强烈的反馈循环,这反过来限制了新用户兴趣的发现。为了解决这一问题,论文引入了一种结合大型语言模型(LLMs)和经典推荐模型的混合层次框架,用于用户兴趣探索。该框架通过“兴趣集群”控制LLMs和经典推荐模型之间的接口,集群的粒度可以由算法设计者明确确定。该方法结合了LLMs在推理和泛化方面的优势,以及经典推荐模型的基础。它首先使用语言表示“兴...
2024-06-05 09:42:35 442浏览 0点赞 0回复 0收藏
一、结论写在前面同理心是促进亲社会行为的基础,可以通过分享个人经历的故事来唤起。虽然同理心受到叙事内容的影响,但直觉上,人们也通过叙事风格对故事的讲述方式做出反应。然而,同理心与叙事风格之间的关系尚未完全明了。论文通过大型语言模型(LLMs)和大规模众包研究实证检验并量化了这种关系。论文引入了一种新颖的理论基础分类法,HEART(人类同理心与叙事分类法),该分类法阐述了叙事风格中的元素,这些元素能够引导...
2024-06-04 09:09:54 613浏览 0点赞 0回复 0收藏
一、结论写在前面最近的一些方法已经显示出将昂贵的扩散模型蒸馏到高效的单步生成器中的前景。其中,分布匹配蒸馏(DMD)能够生成与教师模型在分布上匹配的单步生成器,即蒸馏过程不强制与教师模型的采样轨迹一一对应。然而,为了在实践中确保稳定训练,DMD需要使用教师模型通过多步确定性采样器生成的大量噪声图像对计算一个额外的回归损失。这不仅在大规模文本到图像合成中计算代价高昂,而且还限制了学生模型的质量,使其过于...
2024-05-30 10:41:48 351浏览 0点赞 0回复 0收藏
一、结论写在前面直接偏好优化(DPO)是一种广泛使用的离线偏好优化算法,它通过人类反馈(RLHIP)重新参数化强化学习中的奖励函数,以增强简单性和训练稳定性。论文提出了SimPO,一种更简单但更有效的方法。SimPO的有效性归功于一个关键设计:使用序列的平均对数概率作为隐式奖励。这种奖励形式更好地与模型生成对齐,并消除了对参考模型的需求,使其在计算和内存上更高效。此外,论文在BradleyTerry目标中引入了一个目标奖励...
2024-05-28 10:52:40 1135浏览 0点赞 0回复 0收藏
一、结论写在前面近期,多模态大型语言模型(LLMs)的发展主要集中在通过增加文本图像配对数据和增强LLMs来提高多模态任务的性能。然而,这些扩展方法计算成本高昂,且忽视了从视觉方面有效提升模型能力的重要性。受到混合专家(MoE)在LLMs中成功应用的启发,该技术在训练过程中提高了模型的可扩展性,同时保持推理成本与小型模型相似,论文将稀疏混合专家设计引入了多模态大型语言模型。具体而言,论文用TopK稀疏MoE块替换了M...
2024-05-23 17:52:09 414浏览 0点赞 0回复 0收藏
获得成就
已积累 1627 人气
获得 0 个点赞
获得 0 次收藏