Aceryt
LV.4
这个用户很懒,还没有个人简介
声望 622
关注 0
粉丝 0
私信
主帖 70
回帖
OpenAI为了保证全球超过1亿的ChatGPT和数百万开发人员,能以安全、稳定的方式使用其产品,更新了安全策略和保护措施。以下是OpenAI最近更新的10种安全策略,并且会在首尔AI安全峰会上与更多的科学家、政务部门分享。模型测试与发布前评估:在发布前,OpenAI会准备框架和自愿承诺,对模型安全性进行内部和外部的实证评估。如果新模型的风险等级达到准备框架中的“中等”风险阈值,将不会发布该模型,直到实施足够的安全干预措施...
18h前 46浏览 0点赞 0回复 0收藏
随着智能手表、健身追踪器等可穿戴设备的普及,使得我们能持续监测健康状况,包括睡眠质量、日常活动、心率和血压等。但如何有效利用这些数据,并从中找出一些健康问题,对于普通用户来说却很难。所以,谷歌的研究人员在Gemini模型的基础之上,微调出了专用于个人健康的大语言模型PHLLM。用户通过将健康数据与PHLLM相结合,就能快速获取个性化健康建议、日常疾病问答、健康报告预测等专家级医疗咨询服务。论文地址:https:arxiv...
3天前 132浏览 0点赞 0回复 0收藏
GPT4、Llama等开闭大模型通过预训练的方式将海量数据积累成一个庞大的知识库,再通过文本问答的形式为用户生成各种内容。但这种方法仅局限于训练数据集,为了扩大输出范围允许模型通过检索额外的数据来丰富生成内容,RAG(知识检索增强)成为了必备功能之一。RAG也有一个明显的缺点,就是随着上下文信息量的增加,模型的解码时间显著延长,严重影响用户获取答案的效率。所以,阿姆斯特丹大学、昆士兰大学和NAVER实验室的研究人...
3天前 111浏览 0点赞 0回复 0收藏
Transformer凭借强大的自注意力机制,成为文本、音频、视频等模型的基础架构之一。但其计算复杂度随着序列长度的增加而呈指数级增长,这在处理长序列数据时会出现严重的效率问题。韩国高等科学技术院的研究人员受最新的Mamba架构启发,开发了首个没有自注意力机制纯粹状态空间的音频分类模型AudioMamba(下面简称“AUM”)。状态空间是Mamba架构的核心功能之一,这是一种用于描述和预测系统状态随时间变化的数学模型,通过维护...
6天前 174浏览 0点赞 0回复 0收藏
为了解决这个难题,OpenAI提出了全新训练框架ProverVerifierGames(简称“PVG”),例如,用GPT3这样的小模型来验证、监督,GPT4大模型的输出,从而提升输出准确率以及可控性。OpenAI论文地址:https:cdn.openai.comproververifiergamesimprovelegibilityofllmoutputslegibility.pdf其实PVG技术概念早在2021年8月的一篇论文中就被提出来,OpenAI也正是受此灵感启发。这是一种基于博弈论的训练方法,通过模拟证明者和验证者之间...
7天前 128浏览 0点赞 0回复 0收藏
Snap、特伦托大学、加州大学和布鲁诺凯斯勒基金会的研究人员,联合推出了高效、连贯一致性文生视频模型——SnapVideo。SnapVideo与OpenAI最新推出的Sora一样采用Transformer架构,结合了时空压缩表示、全局联合时空建模以及自适应建模等功能,在生成的视频质量、视频动作一致性、复杂动作表现等方面非常棒。除了文本生成视频之外,SnapVideo还能根据文本提示对原始视频素材进行剪辑和合成,生成特殊需求的定制化视频,这对于短...
8天前 176浏览 0点赞 0回复 0收藏
阿联酋阿布扎比技术创新研究所(TII)在官网宣布,开源全新大模型Falcon2。Falcon2有110亿参数共有两个版本,一个是高效、易于部署的基础模型,使用了5.5万亿tokens数据进行预训练,可以生成文本、代码、总结内容等。另外一个是带有视觉转换功能的VLM模型,可以将图片的信息转换成文本数据,也是极少数支持视觉转换的开源大模型。开源地址:https:huggingface.cotiiuaefalcon11BTII表示,在多个维权测试排行榜中显示,Falcon211...
2024-07-11 11:06:28 311浏览 0点赞 0回复 0收藏
7月9日,AI平台Odyssey在官网展示了全新的视频模型,并自称其效果可以与好莱坞级特效媲美。同时获得了900万美元种子轮融资。目前,Sora、Gen3、可灵、Luma等知名文生视频模型生成的视频,还无法精准达到影视级要求,更别提好莱坞级。多数产品都需要通过AE、PR等专业软件进行后期处理才能使用。Odyssey的方法并不是传统的文生视频,而是在一个视频中内置了4个模型,分别用来生成高质量的几何形状、逼真的材质、灯光效果和可控的...
2024-07-11 11:03:53 234浏览 0点赞 0回复 0收藏
Transformer架构的出现极大推动了大模型的技术创新,诞生出了ChatGPT、Coplit、讯飞星火、文心一言等一系列生成式AI产品。虽然Transformer在自然语言理解任务上表现很好,但在算法推理方面有严重的缺陷。例如,当面临超出训练数据分布的输入时,其泛化能力会急剧下降。这主要是因为它们的自回归性质和掩蔽注意力机制,不符合算法输出的逻辑顺序。而神经算法推理(NAR)在结构化输入上表现好,能够处理各种算法任务,并且在面对训练集...
2024-07-08 09:35:13 217浏览 0点赞 0回复 0收藏
论文是研究新技术、开发新产品获取“图纸”的重要途径之一,OpenAI的研究人员正是借鉴了Transformer的论文(被引用超过9万次),才开发出了对全球各行业影响巨大的产品ChatGPT。而论文的数量、通过率和被引用次数是衡量一个国家科技人才素质,以及技术创新能力的重要标准之一。根据美国最古老大学之一乔治城大学的数据分析平台ETO,在今年5月发布的最新调查报告显示:2017—2022年期间,全球一共发布了125.5万篇与AI相关的论文...
2024-07-08 09:32:24 316浏览 0点赞 0回复 0收藏
苹果和瑞士洛桑联邦理工学院的研究人员联合开源了大规模多模态视觉模型——4M21。多数大模型通常针对特定任务或数据类型进行优化,这种专业化虽然能确保在特定领域的高性能,但也限制了模型的通用性和灵活性。例如,开源模型StableDifusion只能用于文生图,即便是Gemini这种多模态模型,也只能生成和解读图片。而4M21只有30亿参数,却可以提供图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计等数十种功能,基...
2024-07-08 09:29:10 352浏览 0点赞 0回复 0收藏
全球社交、科技巨头Meta发布了全新文生3D模型——Meta3DGen。用户通过Meta3DGen仅需1分钟就能生成人物、动物、道具、服饰、工业设计等不同类型的高质量3D模型。Meta3DGen不仅生成的内容是高分辨率的纹理和材质贴图,还支持物理渲染光影效果非常好,适用于游戏开发、电影制作、虚拟现实、建筑设计等领域,帮助开发人员节省大量时间。多视图到3D重建多视图到3D重建是Meta3DGen的两大核心模块之一,主要将用户输入的文本提示转换为...
2024-07-05 10:14:20 351浏览 0点赞 0回复 0收藏
哈佛医学院、麻省理工学院、俄亥俄州立大学韦克斯纳医学等研究人员联合推出了,面向医学领域的多模态AI助手——PathChat。PathChat不仅能理解、分析复杂的医学图像,还能基于多轮文本对话,为临床医生、医护人员提供精准和个性化的病理学指导。论文地址:https:www.nature.comarticless41586024076183为了提升PathChat的多功能处理能力,使用了一个多模态架构由视觉编码器、多模态投影和大语言模型三大块组成。视觉编码器充当Pa...
2024-07-05 10:10:14 548浏览 0点赞 0回复 0收藏
7月4日凌晨,法国知名开源AI研究实验室Kyutai在官网发布了,具备看、听、说多模态大模型——Moshi。Moshi功能与OpenAI在5月14日展示的最新模型GPT4o差不多,可以听取人的语音提问后进行实时推理回答内容。但GPT4o的语音模式要在秋天才能全面开放使用,而Moshi已经提供使用了。「AIGC开放社区」已经亲自测试,Moshi不锁区,填写一个邮箱地址就能直接使用,无需任何等待。值得一提的是,Moshi是支持手机移动端使用的,只不过对普...
2024-07-05 10:07:05 396浏览 0点赞 0回复 0收藏
7月3日,微软在官网开源了基于图的RAG(检索增强生成)——GraphRAG。为了增强大模型的搜索、问答、摘要、推理等能力,RAG已经成为GPT4、Qwen2、文心一言、讯飞星火、Gemini等国内外知名大模型标配功能。传统的RAG系统在处理外部数据源时,只是简单地将文档转换为文本,将其分割为片段,然后嵌入到向量空间中,使得相似的语义对应相近的位置。但这种方法在处理需要全局理解的海量数据查询时存在局限,因为它过度依赖局部文本片...
2024-07-05 10:02:11 1010浏览 0点赞 0回复 0收藏
知名大模型平台TogetherAI开源了一个创新框架MixtureofAgents(简称,MoA)。MoA可以显著提升大模型的生成内容的能力和安全性,同时降低对AI算力的需求。研究人员在AlpacaEval2.0、MTBench和FLASK等多个基准上进行了全面评测,涵盖了从无害性、鲁棒性、效率、可读性、事实性等多个维度。结果显示,MoA在AlpacaEval2.0上以65.1%的得分,击败了OpenAI的GPT4o(57.5%),并且在使用开源大模型的条件下,仍然保持了明显的优势。也就...
2024-06-27 10:09:15 322浏览 0点赞 0回复 0收藏
6月25日凌晨,有部分开发者收到了OpenAI的信,“根据数据显示,你的组织有来自OpenAl目前不支持的地区的API流量。从7月9日起,将采取额外措施,停止来自不在OpenAI支持的国家、地区名单上的API使用。”但这位网友表示,他只在美国和乌克兰的第聂伯罗两个地方使用都是在白名单上的,还是被无理由禁止。并且当他试图去联系OpenAI的真人客服时,得到的却是一封AI回复的信件是“对不起,我们没有在你所在的地区进行运营。”不只是他...
2024-06-25 12:36:52 488浏览 0点赞 0回复 0收藏
物理生成式AI驾驶平台Waabi在官网宣布获得2亿美元,本次由英伟达(NVIDIA)、沃尔沃、保时捷、Uber、Khosla等全球知名企业投资。Waabi仅成立3年便获得4级自主驾驶权限,主要是借助了ChatGPT等生成式AI风口,将其融合在自动驾驶中突破了很多重大技术难点,将在2025年推出无人干预的全自动化运输卡车。Waabi开发了一个端到端的大模型Copilot4D,可以模拟人类的智力、推理和驾驶习惯。相比传统的自动化驾驶方案所需要的训练数据和...
2024-06-25 12:33:13 330浏览 0点赞 0回复 0收藏
Transformer在大模型领域的影响力不言而喻,ChatGPT、Sora、Midjourney、Suno、Llama、StableDifusion等几乎所有知名开闭源模型,皆基于该架构开发而成。但随着大模型参数呈指数级增长,小的几百亿大的上千亿甚至万亿,这使得Transformer在解码时所需的KV(键值)缓存急剧增加,会导致内存占用过大造成部署、推理方面的瓶颈。所以,麻省理工的研究人员提出了全新的跨层注意力(CrossLayerAttention,简称“CLA”),通过在不同解...
2024-06-25 11:31:52 583浏览 0点赞 0回复 0收藏
谷歌Deepmind在官网推出了视频转音频模型V2A。用户可以用视频+文本提示的方式,通过V2A为视频模型自动匹配语音。例如,为紧张、恐怖、惊悚的片段自动匹配语音,可以进一步节省制作时间和提高效率。同时可以与谷歌的视频模型Veo相结合使用。目前,Sora、可灵、Gen3、DreamMachine等知名模型生成的视频没有任何声音,用户如果想使用这些视频还需要二次加工配音。但在嘴型、音轨匹配方面就比较麻烦,而V2A可以生成无限数量的音轨,...
2024-06-20 12:24:01 595浏览 0点赞 0回复 0收藏
获得成就
已积累 8933 人气
获得 0 个点赞
获得 0 次收藏