AIRoobt
LV.3
AI人工智能、机器人、具身智能、大模型、机器学习、深度学习技术
声望 268
关注 0
粉丝 1
私信
主帖 27
回帖
摘要:语言模型正越来越多地用于广泛任务中的一般问题解决,但在推理过程中,它们仍然局限于逐字级别、从左到右的决策过程。这意味着它们在需要探索、战略性前瞻,或初始决策起关键作用的任务中可能表现不佳。为了解决这些挑战,我们引入了一种新的语言模型推理框架——“思维树”(TreeofThoughts,ToT),它推广了流行的“链式思维”方法,通过提示语言模型并使其能够探索作为解决问题中间步骤的连贯文本单元(“思想”)。To...
7天前 166浏览 0点赞 0回复 0收藏
摘要:大型多模态模型(LargeMultimodalModels,LMMs)的出现引发了旨在利用其卓越推理能力的研究热潮。然而,在理解富含文本的图像方面,要充分发挥LMMs的潜力仍然存在挑战,现有的方法在有效处理高分辨率图像方面面临困难。为此,我们提出了TextCoT,这是一种针对富含文本图像理解的新颖连锁思维(ChainofThought)框架。TextCoT利用LMMs的图片标注能力来把握图像的整体情境,并利用其定位能力来检查局部文本区域,从而实现全局...
7天前 144浏览 0点赞 0回复 0收藏
摘要:在现实世界的应用中,如引文网络、社交网络和生物数据等领域,图(graph)在表示和分析复杂关系方面起着至关重要的作用。最近,大型语言模型(LargeLanguageModels,LLMs)在众多领域取得了显著成功,并且也被应用于与图相关的任务中,以超越传统的基于图神经网络(GraphNeuralNetworks,GNNs)的方法,并实现了最先进的性能。本综述首先对现有整合LLMs与图的各类方法进行了全面回顾与分析。首先,我们提出了一种新的分类法...
7天前 182浏览 0点赞 0回复 0收藏
原文题目:ThePowerofScaleforParameterEffificientPromptTuning,规模的力量:参数高效的提示调整摘要:在这项工作中,我们探索了“提示调整”(prompttuning),这是一种简单但有效的机制,用于学习“软提示”(softprompts),以调节冻结的语言模型,使其执行特定的下游任务。与GPT3使用的离散文本提示不同,软提示是通过反向传播学习得到的,并且可以调整以纳入任意数量的标记示例信号。我们的端到端学习方法在性能上大幅度...
2024-07-12 07:42:32 220浏览 0点赞 0回复 0收藏
​摘要——基础模型,如大型语言模型(LLMs),可以在不进行任何任务特定的数据收集或模型训练的情况下响应各种无格式查询,为大规模电力系统的建模和运行创造了各种研究和应用机会。在本文中,我们概述了如何开发诸如GPT4之类的大型基础模型,并讨论了它们如何在具有挑战性的电力和能源系统任务中发挥作用。我们首先通过验证其在电力系统领域四个代表性任务中的性能来调查现有基础模型的潜力,包括最优潮流(OPF)、电动汽车(...
2024-07-12 07:29:38 194浏览 0点赞 0回复 0收藏
摘要——大型语言模型(LLM)是人工智能(AI)领域的一项重大突破,并且在智能电网中的应用具有很大的潜力。然而,正如之前的文献所示,AI技术容易受到各种类型的攻击。因此,在将LLM部署到智能电网等关键基础设施之前,研究和评估相关风险是至关重要的。本文系统评估了LLM的漏洞,并识别出两种与智能电网LLM应用相关的主要攻击类型,同时提出了相应的威胁模型。我们随后使用真实的智能电网数据,对这些攻击进行了验证。验证结...
2024-07-12 07:19:14 167浏览 0点赞 0回复 0收藏
​摘要—大型语言模型(LLMs)经历了显著的扩展,并且越来越多地被整合到各个领域中。特别是在机器人任务规划领域,LLMs利用其先进的推理和语言理解能力,根据自然语言指令制定精确高效的行动计划。然而,对于具体化的机器人任务,即机器人与复杂环境互动的任务,仅文本的LLMs常常因为缺乏与机器人视觉感知的兼容性而面临挑战。本研究提供了一个全面的概述,介绍了LLMs和多模态LLMs如何被整合到各种机器人任务中。此外,我们提...
2024-07-10 07:59:22 303浏览 0点赞 0回复 0收藏
摘要:大型语言模型(LLM)作为聊天机器人因其在自然语言处理以及广泛任务中的多功能能力而引起了广泛关注。虽然各行业对采用此类基础模型的人工智能工具充满了热情,但需要探讨此类LLM在提升电能行业运营方面的能力与局限,本文在这方面确定了有价值的研究方向。未来研究的关键方向包括用于微调LLM的数据收集系统、将电力系统特定工具嵌入LLM,以及基于检索增强生成(RAG)的知识库,以提高LLM响应的质量和LLM在安全关键应用中...
2024-07-10 07:17:54 260浏览 0点赞 0回复 0收藏
​​摘要——准确的负荷预测对于维持发电机和消费者之间的电力平衡至关重要,特别是在可再生能源日益融合的情况下,这些能源带来了显著的间歇性波动。随着数据驱动方法的发展,基于机器学习和深度学习的模型已成为负荷预测任务的主要方法。近年来,预训练语言模型(PLM)在各个领域表现出色,取得了显著进展。本文提出了一种基于PLM的负荷预测方法,该方法不仅具有准确的预测能力,还具有通用性和灵活性。此外,本文还提出了一...
2024-07-09 07:29:23 264浏览 0点赞 0回复 0收藏
摘要:尽管大规模语言模型(LLMs)变得越来越强大,但它们仍然表现出显著但微妙的弱点,如在执行指令或编写代码任务中的错误。由于这些意外错误在实际部署中可能导致严重后果,系统性地研究LLMs的局限性至关重要。传统的基准测试方法无法彻底pinpoint具体的模型缺陷,而手动检查则成本高且不可扩展。在本文中,我们介绍了一个统一框架,AUTODETECT,以自动揭示LLMs在各种任务中的弱点。受教育评估过程(衡量学生学习成果)的启...
2024-07-04 07:59:45 245浏览 0点赞 0回复 0收藏
摘要:本文探讨了一项新颖任务“如你所说的灵巧抓取”(DexGYS),使机器人能够根据以自然语言表达的人类指令执行灵巧抓取。然而,这一领域的发展因缺乏具有自然人类指导的数据集而受到阻碍;因此,我们提出了一个基于语言指导的灵巧抓取数据集,名为DexGYSNet,提供高质量的灵巧抓取注释以及灵活和细致的人类语言指导。我们的数据集构建具有成本效益,采用精心设计的手物体交互重定向策略和大语言模型辅助的语言指导注释系统。...
2024-07-04 07:54:20 298浏览 0点赞 0回复 0收藏
摘要:基于强大的大语言模型(LLMs),最近的生成型多模态大语言模型(MLLMs)作为一个重要的研究领域,展示了在理解和生成方面的显著能力。在这项工作中,我们引入了一个名为SEEDBench的基准测试,以评估MLLMs的生成理解能力,作为对生成模型进行全面评估的初步步骤。SEEDBench包含19,000道多项选择题,配有精确的人类标注(是现有基准的6倍),涵盖了包括图像和视频模态理解在内的12个评估维度。我们开发了一个先进的流程,用...
2024-07-04 07:51:09 390浏览 0点赞 0回复 0收藏
摘要:大型语言模型(LLM)通过利用链式思维(CoT)实现逐步思考,在自然语言处理任务中展示了令人印象深刻的表现。将LLM扩展到多模态能力是近期的研究热点,但这会带来计算成本并需要大量硬件资源。为了解决这些挑战,我们提出了KAMCoT,一个将CoT推理、知识图谱(KG)和多种模态集成起来的框架,以全面理解多模态任务。KAMCoT采用了一个包含KG基础的两阶段训练过程,以生成有效的推理和答案。通过在推理过程中引入来自KG的外...
2024-07-03 07:45:10 378浏览 0点赞 0回复 0收藏
摘要:大型语言模型(LLMs)在数学推理方面展示了令人印象深刻的能力。然而,尽管取得了这些成就,当前的评估主要限于特定的数学主题,尚不清楚LLMs是否真正参与了推理。为了解决这些问题,我们提出了数学主题树(MaTT)基准,一个具有挑战性和结构化的基准,涵盖了广泛的数学科目,提供了1958个问题,每个问题都配有详细的分层主题链。在使用MaTT基准评估不同的LLMs后,我们发现最先进的模型GPT4在多项选择题中仅取得了54%的准...
2024-07-03 07:41:48 236浏览 0点赞 0回复 0收藏
​摘要:大型语言模型(LLMs)通过利用思维链(CoT)提示生成中间推理链作为推断答案的理由,在复杂推理方面展现出了令人印象深刻的表现。然而,现有的CoT研究一直专注于语言模态。我们提出了多模态CoT,它将语言(文本)和视觉(图像)模态结合到一个两阶段框架中,该框架将理由生成和答案推断分开。通过这种方式,答案推断可以利用基于多模态信息更好地生成的理由。使用多模态CoT,我们的模型在1亿参数以下的情况下,比以前最先进的LL...
2024-07-03 06:32:44 257浏览 0点赞 0回复 0收藏
​摘要:大型语言模型(LLMs)的进步使得思维链(ChainofThought,CoT)方法受到了极大的关注,主要是因为它能够增强LLMs在复杂推理任务上的能力。此外,CoT方法的重要性还扩展到了将LLMs应用于多模态任务。然而,由于多模态样本固有的复杂性,为多模态推理选择最优CoT示例的问题在LLMs中尚未得到充分探索。在本文中,我们介绍了一种新颖的方法,通过使用检索机制来动态且自动地根据跨模态和内模态相似性选择示例,从而解决这一...
2024-07-02 10:54:31 588浏览 0点赞 0回复 0收藏
摘要:我们介绍了CLUSTERLLM,这是一种利用经过指令微调的大型语言模型(如ChatGPT)反馈的新型文本聚类框架。与建立在“小”嵌入器上的传统无监督方法相比,CLUSTERLLM具有两个有趣的优势:(1)即使其嵌入不可访问,它也享有LLM的突现能力;(2)它通过文本指令和或少量标注数据理解用户对聚类的偏好。首先,我们通过构建困难的三重问题<是否A比C更对应B>来提示ChatGPT,以获取聚类视角的见解,其中A、B和C是根据小嵌入器属于...
2024-07-02 10:46:53 408浏览 0点赞 0回复 0收藏
摘要—最近,以GPT4V为代表的多模态大型语言模型(MLLM)已成为新兴的研究热点,它使用强大的大型语言模型(LLMs)作为“大脑”来执行多模态任务。MLLM出人意料的涌现能力,如基于图像编写故事和无需OCR的数学推理,是传统多模态方法中罕见的,这表明了一条通往人工通用智能的潜在路径。为此,学术界和工业界都致力于开发能够与GPT4V竞争甚至超越的MLLM,以惊人的速度推动研究的极限。在本文中,我们旨在追踪并总结MLLM的最新进...
2024-07-01 13:16:55 469浏览 0点赞 0回复 0收藏
​摘要:视觉定位是将用户提供的文本查询与图像中特定区域链接起来的基本工具。尽管视觉定位模型取得了一定进展,但它们在理解复杂查询方面的能力仍然有限。为了解决这一限制,我们引入了LLMOptic,这是一种创新方法,利用大型语言模型(LLM)作为光学透镜来增强现有视觉定位模型对涉及复杂文本结构、多对象或对象空间关系的复杂文本查询的理解能力——这些情况是当前模型难以应对的。LLMOptic首先使用LLM作为文本定位器来解释...
2024-07-01 13:08:25 391浏览 0点赞 0回复 0收藏
​摘要:随着通过思维链(CoT)方法增强的大型语言模型(LLMs)的出现,视觉推理问题通常被分解成可管理的子任务,并使用各种外部工具依次解决。然而,这种范式面临决策中潜在的“确定性幻觉”的挑战,这是由于视觉信息不足以及低级感知工具的限制,这些工具无法提供全面推理所需的抽象总结。我们认为,视觉上下文获取与逻辑推理的融合是解决视觉推理任务的关键。本文深入探讨了多模态CoT的领域,使用多模态大型语言模型(MLLMs...
2024-07-01 13:05:26 329浏览 0点赞 0回复 0收藏
获得成就
已积累 1783 人气
获得 0 个点赞
获得 0 次收藏