AIGC最前线
LV.4
分享AIGC领域的前沿技术、专家观点、时事新闻、安全治理
声望 501
关注 0
粉丝 0
私信
主帖 55
回帖
模拟在推动机器人学习方面发挥了重要作用,通过提供一个受控而多变的环境来开发和测试算法。特别是数据驱动方法通常将机器人部署到仿真环境中,在各种多样化和随机化的设置中进行广泛训练,以实现可泛化和适应性强的行为。通过随机化物体形状、纹理和动态特性,机器人学习取得了显著进展。然而,尽管物体属性是一个关键因素,但物体布局仍然具有挑战性,难以实现完全开放式的随机化。与可以在不干扰其他物体的情况下轻松指定范...
1天前 77浏览 0点赞 0回复 0收藏
强化学习(RL)在复杂任务上取得了令人瞩目的成果,但在具有不同实施方式的多任务设置中存在困难。世界模型通过学习环境的模拟来提供可伸缩性,但它们通常依赖于低效的无梯度优化方法。近日,佐治亚理工学者联合英伟达、加州大学圣地亚哥分校等学者提出了基于大世界模型的策略学习(PWM),这是一种新颖的基于模型的RL算法,它从大型多任务世界模型中学习连续控制策略。通过对离线数据进行世界模型的预训练,并将其用于一阶梯度...
4天前 158浏览 0点赞 0回复 0收藏
想象一下,拥有一个不仅能回答问题,还能浏览网页、解决复杂数学问题、编写代码,甚至能推理图像和基于文本的游戏的数字助手。听起来好得难以置信好吧,准备好迎接人工智能的未来,因为随着LUMOS的引入,它变得更加易于获取和透明。在一项突破性的发展中,来自艾伦人工智能研究所、UCLA和华盛顿大学的研究人员推出了LUMOS,这是一个开源框架,有望彻底改变我们与语言代理的交互方式。与现有的闭源解决方案不同,LUMOS提供了前所未有的可负...
2024-06-24 16:08:17 239浏览 0点赞 0回复 0收藏
近日,微软的AzureAI团队在HuggingFace上发布了一个名为Florence2的新视觉基础模型。该模型以宽松的MIT许可证可用,可以处理各种视觉和视觉语言任务,使用统一的基于提示的表示形式。它有两个尺寸——232M和771M个参数,并且在字幕生成、目标检测、视觉定位和分割等任务上已经表现出色,与许多大型视觉模型相媲美甚至更好。尽管该模型的实际性能尚待测试,但这项工作预计将为企业提供一种处理不同类型视觉应用的统一方法。这将...
2024-06-21 14:31:45 540浏览 0点赞 0回复 0收藏
教育数据中的课堂对话等信息包含了关于学生学习方式的大量洞察。但是,处理和分析这些数据是相当痛苦的。近日,斯坦福大学研究团队提出EduConvoKit,这是一个能够为你处理预处理、注释和分析的流程!用于规模化教育的语言工具令人感到兴奋,因为正在摆脱仅以标准化考试成绩衡量学习的过度简化观点......而转向以学生思维和教学法为基础的语言评估。仓库链接:https:github.comstanfordnlpeduconvokit来看看EduConvoKit的实际应...
2024-06-20 13:10:13 256浏览 0点赞 0回复 0收藏
动机离线强化学习(RL)和模仿学习之间的主要区别在于使用价值函数,并且离线RL中的大多数先前工作都侧重于使用更好的技术学习更好的价值函数。所以价值函数学习是离线RL的主要瓶颈……对吗?在这项工作中,研究人员表明,实践中情况往往并非如此!分析离线强化学习的瓶颈这项工作的主要目标是了解离线RL的性能在实践中如何受到瓶颈限制。离线RL有三个潜在瓶颈:(B1)数据价值评估不完善(B2)从学习到的价值函数中提取不完善的...
2024-06-18 12:40:28 284浏览 0点赞 0回复 0收藏
DALL·E2是由AdityaRamesh和OpenAI的合著者们开发的一种文本到图像生成系统。当系统接收到一个标题时,它会尝试从头开始生成一幅与之匹配的新颖图像。它还具备以下额外功能:修复:使用语言对图像进行编辑;变异(图1):生成新图像,这些图像与给定参考图像具有相同的本质,但在细节的组合方式上有所不同;文本差异(图4):使用语言转换图像的任何方面。图1:雷·潘在黑板涂鸦上的DALL·E2变异。中间是原始涂鸦,周围显示生成...
2024-06-18 12:37:48 293浏览 0点赞 0回复 0收藏
开始使用UdioUdio是一款位于人工智能驱动音乐制作前沿的创新平台,正在改变音乐的创作、分享和体验方式。用户只需注册并浏览其用户友好的界面,该界面旨在引导新手和专业人士完成音乐创作过程。该平台允许用户快速登录,通常使用现有的Google账户(我偏爱的方法),从而无缝进入AI音乐的世界。打造您的第一首AI歌曲使用Udio创作音乐是简单与复杂的融合。用户可以从选择流派或情绪开始,然后转到使用提示栏,他们可以输入对歌曲...
2024-06-14 15:08:43 354浏览 0点赞 0回复 0收藏
想象一下,在几秒钟内就能创作出一首完整、专业听起来的歌曲。不需要多年磨练音乐技艺,也不需要掌握复杂的音乐制作软件——只需要用几个词描述你的想法。这就是SunoAI提供的东西,这是一款开创性的平台,利用人工智能的力量来民主化音乐创作,特别是它的最新音乐生成器版本:Sunov3!释放创造力:SunoAI如何生成音乐Suno就像一个黑匣子:一个被神秘笼罩的文本到音乐的生成器……不是开源的。用户输入关键词或简要描述,然后就...
2024-06-14 15:07:04 483浏览 0点赞 0回复 0收藏
外骨骼具有改善人类运动性能的巨大潜力。然而,它们的开发和广泛传播受到需要进行漫长人体测试和手工控制规则的限制。在这里,研究人员展示了一种在仿真中学习多功能控制策略的无实验方法。该仿真学习框架利用具有动力学感知的肌肉骨骼和外骨骼模型以及数据驱动的强化学习,弥合了仿真和现实之间的差距,避免了人体实验。学到的控制器被部署在定制的髋关节外骨骼上,通过降低行走、奔跑和爬楼梯的代谢率分别减少了24.3%、13.1%...
2024-06-14 15:05:25 344浏览 0点赞 0回复 0收藏
StableDiffusion3中型版是StabilityAI迄今为止最先进的文本到图像开放模型,包含20亿个参数。该模型的较小尺寸使其非常适合在消费级个人电脑和笔记本电脑以及企业级GPU上运行。它的大小适合成为下一个文本到图像模型的标准。近日,StabilityAI宣布稳定扩散3中型版的推出,这是StableDiffusion3系列中最新、最先进的文本到图像AI模型。StableDiffusion3中型版代表着生成式人工智能演进中的一个重大里程碑,延续了使这一强大技术...
2024-06-13 12:55:39 316浏览 0点赞 0回复 0收藏
介绍我们正处在大型语言模型和生成式人工智能的时代,其应用场景有可能改变每个人的生活。开放式大型语言模型为提供定制化和领域特定部署带来了重大机会。我们正处在一个激动人心的开放模型开发年份。一方面,我们看到了在(云)服务器部署方面取得的令人振奋的进展,这些解决方案可以为具有多个GPU的更大模型提供同时服务的能力。同时,我们也开始看到在设备本地部署方面取得了进展,能够将性能强大的量化模型部署到笔记本电脑...
2024-06-12 11:42:57 417浏览 0点赞 0回复 0收藏
"当前的AI对齐技术忽视了人类偏好价值观可能会改变这一事实。如何才能考虑到这一点?🤔"人们的偏好会改变,甚至可能受到他们与AI系统的交互影响。为了研究这种情况,研究人员引入了动态奖励马尔可夫决策过程(DRMDPs),这些过程明确考虑了人类的奖励反馈可能受到AI系统影响的方式。研究人员描述了静态偏好假设如何削弱现有对齐技术的合理性,导致它们暗示性地奖励AI系统操纵人类反馈(例如,影响用户的认知状态以增加奖励)。...
2024-06-12 11:40:59 326浏览 0点赞 0回复 0收藏
神经技术的发展为机器翻译的研究开辟了新的途径。如今,神经机器翻译(NMT)系统可以利用高度多语言能力,甚至进行零翻译,提供了有希望的语言覆盖和质量结果。然而,扩展高质量的NMT需要大量平行双语数据,而这些数据对世界上7000多种语言并不平等地可用。将重点放在改进相对较少数量的高资源语言的翻译质量上,将导致研究关注低资源语言的不足,从而加剧了数字不平等。为了打破这一模式,研究人员在这里介绍了NoLanguageLeftB...
2024-06-12 11:39:40 353浏览 0点赞 0回复 0收藏
🤔我们能否利用'基因基因'🧬和'细胞细胞'🧫关系来推断单细胞RNA测序数据?👉请查看在《BriefingsinBioinformatics》上发表的新论文,scBFP!该工作由KAIST、UNC和MIT合作完成。方法在scBFP中,研究人员采用如下的双层特征传播:对于基因基因,我们使用基因级特征传播来利用观察到的基因数值。对于细胞细胞,我们应用细胞级扩散来全局去噪观察到的和推断的数值。以上过程可以通过以下算法简单说明。实验结果通过使用推断的细胞基...
2024-06-12 11:33:24 268浏览 0点赞 0回复 0收藏
尽管近年来大型语言模型(LLM)在代码生成方面取得了惊人的成功,但这种由人工智能生成的代码的可信性仍然是一个问题。为了解决这个问题,研究人员提出了Clover模式,即闭环可验证代码生成,通过检查代码、文档字符串和注释之间的一致性,强制执行AI生成的代码的正确性。在软件开发中,利用大型语言模型(LLM)进行代码生成是一个快速发展的趋势。然而,如果没有有效的方法来确保AI生成的代码的正确性,这一趋势可能导致不可取...
2024-06-12 11:30:53 264浏览 0点赞 0回复 0收藏
LLM(大语言模型)通常存在校准不良和过度自信的问题,无论是显性的(例如,“我百分之百确定”)还是隐性的,例如提供详细信息或权威语调。为了解决这个问题,研究人员采用了一种实用的说话者听众多代理方法。通过多代理RSA(RationalSpeechActs)和启发式的偏好优化来实现这一点:说话者生成答案,听众根据答案的听起来如何来接受或拒绝它们。人们更喜欢自信且正确或不自信且不正确的答案,不喜欢不匹配的答案。通过使用引导...
2024-06-06 07:53:37 247浏览 0点赞 0回复 0收藏
大型语言模型(LLM)有一些固有限制,如知识截断、较差的算术能力或无法访问私有数据等。为了克服这些限制,研究人员使用了诸如检索增强生成(RetrievalAugmentedGeneration,RAG)的技术,该技术通过查询向量或结构化数据库,在提示中添加相关上下文的结果。像Toolformer和ReAct这样的创新提高了LLM的性能,使其能够使用外部函数进行复杂问题的解决。LLM整合各种工具和函数调用的能力可能会导致在开发基于LLM的软件时发生根本...
2024-06-06 07:51:20 527浏览 0点赞 0回复 0收藏
LLMs通过纯文本语言(例如英语)执行命令的能力使得能够完成用户查询的代理系统得以实现,通过协调正确的工具集合(例如ToolFormer、Gorilla)。这个能力以及最近的多模态努力,比如GPT4o或Gemini1.5模型,已经扩展了AI代理的可能性范围。虽然这非常令人兴奋,但这些模型的庞大尺寸和计算需求通常需要在云端进行推理。这可能会为它们的广泛应用带来几个挑战。首先,将视频、音频或文本文档等数据上传到云端的第三方供应商可能会...
2024-06-06 07:46:52 349浏览 0点赞 0回复 0收藏
STIC框架概述,这是一个专注于LVLM图像理解能力的两阶段自我训练算法。第1阶段,基础LVLM使用精心设计的提示、设计不良的提示和扭曲的图像自我构建其图像描述偏好数据集。在第2阶段,之前使用过的监督微调(SFT)数据的一小部分被回收利用,并与模型生成的图像描述进一步微调基础LVLM。大型视觉语言模型(LVLMs)将大型语言模型(LLMs)与预训练的视觉编码器结合在一起,从而激活了模型的感知能力,以理解不同查询的图像输入并...
2024-06-03 08:29:10 294浏览 0点赞 0回复 0收藏
获得成就
已积累 1.2w 人气
获得 0 个点赞
获得 0 次收藏