Aceryt
LV.6
这个用户很懒,还没有个人简介
声望 1095
关注 0
粉丝 1
私信
主帖 120
回帖
丰田在官网宣布与波士顿动力联合开发实体大型行为模型(LBM)机器人,以加速Atlas的通用能力和商业化场景。LBM的运行模式与ChatGPT等大模型类似,但LBM不能生成文本、图片等,而是帮助实体机器人能够通过观察人类行为来学习各种物理任务,例如,炒菜、做饭、照顾老人等。丰田希望将自己的LBM技术与波士顿动力的招牌机器人Atlas相结合,将很多不可能、电影中的场景实现。丰田自研的LBM技术通过分析大量的人类互动数据,使机器人...
5天前 183浏览 0点赞 0回复 0收藏
今天凌晨OpenAI宣布向所有ChatGPTPlus、Enterprise、Team和Edu用户,提供Windows桌面应用早期版本。用户可在微软的应用商店中下载,安装完成后通过Alt+Space快捷键就能迅速启用,提供文件分析、搜索对话、文本生成等功能,使用体验相当丝滑和Office一样。目前,OpenAI已经开放了Mac、Windows两大操作系统的桌面版本,唯独没有对Linux做出明确的发布时间安排,所以,不少用户询问何时能开放该平台版本。OpenAI还没有给出详细的日...
5天前 337浏览 0点赞 0回复 0收藏
全球AI领导者英伟达(Nvidia)开源了超强大模型——Llama3.1Nemotron70BInstruct。根据测试数据显示,这个模型已经击败GPT4o、GPT4turbo、Gemma2、Gemini1.5、Claude3.5sonnet等140多个开闭源模型,仅次于OpenAI发布的最新模型o1。Nemotron的基础模型是基于Llama3.170B开发而成,这个没什么新奇。但在训练的过程使用了一种新的混合训练方法,将BradleyTerry和Regression一起用于训练奖励模型。值得一提的是,英伟达把Nemotron的...
6天前 584浏览 0点赞 0回复 0收藏
快手、北京大学和北京邮电大学的研究人员联合开源了超高清视频模型——PyramidFlow。PyramidFlow仅通过文本就能生成最多10秒、1280x768分辨率和24帧视频,在光影效果、运动动作一致性、视频质量、文本语义还原、色彩搭配等方面非常优秀,生成的视频很棒。值得一提的是,PyramidFlow使用A100GPU在开源数据集上仅训练了20,700小时,其能耗和生成效率比市面上同类开源视频模型好很多,对于没有大量算力的中小企业和个人开发者来说...
2024-10-11 11:33:48 166浏览 1点赞 0回复 0收藏
目前,多数大模型一旦经过预训练,其内部结构便难以改变,就像把知识刻在石头一样。如果你想对模型的数据进行更新,就需要对整个模型重新训练,消耗大量时间和AI算力。为了解决这一难题,谷歌DeepMind的研究人员提出了创新视觉记忆技术,其核心是将深度学习模型的表示能力与数据库的灵活性相结合,可以灵活地添加或删除数据。简单来说,和人类的视觉记忆差不多,既能不断学习新的知识,又能对已有的知识进行更新和调整。构建视...
2024-10-10 10:18:52 235浏览 0点赞 0回复 0收藏
全球社交巨头Meta发布最新大模型MovieGen,正式进军文生视频领域。MovieGen共有300亿参数,能以每秒16帧直接生成16秒的1080P超高清视频,还提供精准的视频剪辑、个性化功、不同宽高比适配等多元化功能。最大技术亮点是,MovieGen能直接生成带精准配乐的视频,目前Sora、Runway、Luma等一线产品都无法提供该功能。有网友对MovieGen的全面化功能相当震惊,表示,Meta比OpenAI更高的发布了Sora。基本上都是一片Amazing,足以看出Mo...
2024-10-08 10:22:14 365浏览 0点赞 0回复 0收藏
扩散模型已经成为文本生成图像、视频的主要框架之一,其基本原理是通过逐步引入噪声并在反向过程中去除噪声来生成数据。但在生成2K、4K高分辨率时,面临巨大的算力需求和时间消耗。为了解决这一难题,苹果的研究人员开源了高清扩散模型MatryoshkaDiffusionModels(简称“MDM”),通过引入一种特殊的扩散过程可在多个分辨率下同时进行去噪,并使用NestedUNet架构,将小尺度输入的特征和参数嵌套在大尺度的结构中,允许模型在不...
2024-10-08 10:15:25 186浏览 0点赞 0回复 0收藏
Meta开源了首个多模态大模型Llama3.2,这是Llama3系列的一次重大升级,一共有4个版本。Llama3.21B、3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持128k标记的上下文长度,可在手机、平板电脑等设备中使用。值得一提的是,这两款模型在发布时便对高通和联发科的硬件进行了适配,并针对Arm处理器进行了优化,广泛的兼容性将加速其在各种移动和物联网设备中的...
2024-09-30 10:41:09 378浏览 0点赞 0回复 0收藏
美国加州州长GavinNewsom在今天凌晨正式否决——SB1047法案!值得一提的是,过去30天Gavin一共签署了17个关于监管大模型、生成式AI安全使用的法案,唯独否决了1047,看来他也不是一个糊涂人。在这个积极否决的过程中,AI界泰斗吴恩达、图灵奖获得者YannLeCun、斯坦福教授李飞飞等发挥了重要作用。尤其是吴恩达,曾多次在公开场合呼吁科技人士抵制该法案功劳非常大。对于全球开发者来说今天也是个重要的日子,可以继续使用Meta、...
2024-09-30 10:38:44 469浏览 0点赞 0回复 0收藏
OpenAI向所有ChatGPTplus和Team用户开放了高级语音模式,玩法是层出不穷其中很多是相当有创意。标普全球AI副总监AJSmith便展示了与ChatGPT一起合唱披头士的经典歌曲《EleanorRigby》。整个演唱过程相当丝滑,并且AI还会时不时的称赞他几句唱的很好。Smith表示,最初ChatGPT是知道《EleanorRigby》这首歌曲的,但是它不敢跟着唱。这是因为OpenAI怕侵犯音乐版权的问题,禁止AI进行类似的演唱。于是Smith更改了提示“我们可以玩个...
2024-09-29 10:41:51 1566浏览 0点赞 0回复 0收藏
全球最大社交平台Meta(Facebook、Instagram、WhatsApp等母公司)联合创始人兼CEO扎克伯格接受了,前Vox著名记者CleoAbram的专访。主要谈到了Meta最新发布的变革性产品全息AR眼镜,开源大模型、生成式AI的发展以及全球开发者非常关心的Llama4。扎克伯格亲口确认了Llama4使用了超过10万个GPU进行训练。目前Meta公开的算力是60万块GPU,也就是说Llama4已经成为Meta的主力拳头产品,使用更多的GPU训练有助于突破AI极限。下面的内容...
2024-09-29 10:37:20 477浏览 0点赞 0回复 0收藏
著名文生视频模型Runway宣布开放最新文生视频模型Gen3AlphaTurbo的API,帮助开发者将该功能集成在应用中。Runway的API提供了两个套餐:“Build”主要面向希望将文生视频集成在应用的个人和团队;Enterprise则面向更大型的组织和企业。目前,Runway的API需要申请候补名单。几乎在同一时间,Runway的主要竞争对手Luma也宣布开放了生成视频API,同样可以将文生视频功能集成在应用中。Luma的API提供的是最新模型DreamMachinev1.6,...
2024-09-19 12:17:27 348浏览 0点赞 0回复 0收藏
今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5Coder和数学的Qwen2.5Math。这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。如果不想进行繁琐的部署,阿里还开放了旗舰模型QwenPlus和QwenTurbo的API,帮助你快速开发或集成生成式AI功能。开源地址:https:huggingface.cocollectionsQwenqwen2...
2024-09-19 12:15:38 357浏览 0点赞 0回复 0收藏
传统的3D视频生成主要有两种方法,一种是通过2D视频模型和静态3D场景模型的分类器指导来优化动态3D视频场景表示,不过这种对算力的需求极大,生成一个3D视频需要数小时;另一种是通过变形初始3D场景表示来实现,但需要严格的时间结构并且需调整复杂的参数。为了解决这些难题,麻省理工、Databricks马赛克科研所和康奈尔大学联合推出了创新模型Vid3D。该模型假设无需明确建模3D时间动态,通过生成2D视频的时序动态轮廓,然后独立...
2024-09-18 10:50:56 406浏览 0点赞 0回复 0收藏
今天凌晨1点,OpenAI终于正式发布了传说中的“草莓”模型——o1。除了名字不一样,功能、推理、性能等方面与之前泄漏的内容基本一致,o1的推理模式很特殊,在回答用户问题之前会进入拟人化思考模式,将问题分解成更小的步骤逐一解决,生成一个较长的内部思维链,回答的内容也更加准确。这个技术谷歌DeepMind很早之前便进行过解读称为——训练时计算(Testtimecomputation)。其核心技术主要使用了密集型、流程导向的验证奖励模...
2024-09-13 10:35:18 359浏览 0点赞 0回复 0收藏
法国著名开源大模型平台MistralAI开源了,首个能够同时处理图像和文本的多模态大模型——Pixtral12B。MistralAI开源的方式依然非常简单粗暴,直接上磁力链接,把所有模型权重都放出来了。「AIGC开放社区」已经试验了一下,大小在23.64G左右,这个在多模态模型中属于比较小的了,估计能耗和部署方面会方便很多。下载速度也是满载状态,说明这个模型还是相当受欢迎。如果你是千M光纤,估计几分钟就下完了。不少网友对MistralAI开...
2024-09-12 10:05:49 358浏览 0点赞 0回复 0收藏
法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了专用于法律领域的大模型——SaulLM。SaulLM一共有540亿、1410亿两种参数,以及基础模型和指令微调两种版本。SaulLM的最大特色是使用了5400亿token的专业法律数据进行了预训练,包括美国、欧洲、澳大利亚等地的法律文本,输出内容的准确率高于很多同类模型。开源地址:https:huggingface.coEquallSaulLM54Base指令微调:https:huggingface.coEquallSaulLM141BInstr...
2024-09-11 10:38:34 479浏览 0点赞 0回复 0收藏
Theinformation消息,OpenAI将在未来两周内发布最新模型“草莓”(Strawberry),会为ChatGPT等产品提供技术支持。据测试过该模型的人员透露,草莓模型的推理模式非常特殊,可以像人类一样在提供响应之前进行拟人化思考,用10—20秒的时间进行信息搜索、评估,更高效的利用现有AI算力提供更准确的内容。其实,草莓的这种特殊的推理模式,谷歌DeepMind就专门出过一篇论文进行过类似的技术介绍。目前,多数大模型的性能受限于其预...
2024-09-11 10:36:49 356浏览 0点赞 0回复 0收藏
中国知名大模型平台MiniMax旗下的海螺AI,最新上线的文生视频产品,受到了国外的盛赞,多数人表示一点也不比Sora、Runway、luma等国际顶级产品差。根据「AIGC开放社区」实际使用体验来看,其生成视频的质量、推理效率、动作一致性多样性、文本语义还原、色彩搭配、景深、光影效果等非常优秀,是既快手发布的可灵视频模型之后,咱们村出来的第二位“大学生”成绩是相当的亮眼。这也是为什么产品刚一发布,就在社交平台上引起了多...
2024-09-04 10:17:07 591浏览 0点赞 0回复 0收藏
大模型在游戏开发领域扮演了重要角色,从AI机器人生成到场景搭建覆盖各个领域。但在游戏场景理解、图像识别、内容描述方面很差。为了解决这些难题,加拿大阿尔伯塔的研究人员专门开源了一款针对游戏领域的大模型VideoGameBunny(以下简称“VGB”)。VGB可以作为视觉AI助理,能够理解游戏环境并提供实时反馈。例如,在探索型的3A游戏中,可以帮助玩家识别关键物品或进行问答,帮助玩家能够更快地掌握游戏技巧,从而增强游戏的互...
2024-09-03 10:59:55 471浏览 0点赞 0回复 0收藏
获得成就
已积累 2.0w 人气
获得 1 个点赞
获得 0 次收藏