“远超预期”:Midjourney在迪士尼和环球影业提起诉讼之际发布首款人工智能(AI)视频模型 原创

发布于 2025-6-26 08:32
浏览
0收藏

热门人工智能图像生成服务商Midjourney 发布其首款人工智能(AI)视频生成模型 V1,这标志着该公司从图像生成服务向全方位多媒体内容创作的重大转变。

“远超预期”:Midjourney在迪士尼和环球影业提起诉讼之际发布首款人工智能(AI)视频模型-AI.x社区

从现在开始,Midjourney 的近2000万用户可以通过该网站将图像制作成动画,将他们生成或上传的静态图像转换成5秒钟长的视频片段。用户还可以选择将视频生成时间延长至最多20秒(每5秒为一个片段),并且可以通过文字对视频生成进行引导。

随着此次视频模型的推出,这家起步不久名为“Midjourney”的小型初创公司已经成功跻身于当下炙手可热的人工智能视频赛道之上。但与此同时,比较不幸的是,它刚启动就面临着来自两家全球超大型娱乐公司的严峻法律挑战。

对于那些希望可以利用最新的创意技术,来开展广告和营销或用户互动的人工智能(AI)创作者和企业而言,这意味着什么呢?与众多不断涌现的人工智能(AI)视频模型竞争对手相比,Midjourney表现如何?它如何与竞争对手抗衡?请继续阅读,答案会水落石出。

直接构建于Midjourney热门人工智能图像生成技术之上的新产品

Midjourney公司的新产品延续了其一贯的基于图像的工作流程,并新增了v7 版本的文本转图像模型。

用户可以在Midjourney平台上直接生成静态图像,也可以通过上传外部文件来完成,然后点击“制作动画”按钮,就可以将图像转换为视频。

该模型有两种主要运作模式:一种是模型完全自动完成合成;另一种是用户可以编写自定义动作提示,通过文本指示元素在场景中的移动方式。因此,Midjourney视频模型具备图像到视频以及文本到视频这两项的编辑与修改功能。

从创意角度来看,系统有两种运动设置供用户选择。一种是低运动模式,此模式针对环境或很简单的运动进行了优化,例如角色眨眼睛或有微风吹过时景物细微的变化;另一种是高运动模式,此模式会尝试对主体和摄像机进行更动态的动画处理,不过这有可能会增加产生视觉错误的几率。

在Midjourney网站页面上,这些选项位于生成或上传的图像下方右侧选项窗格中,标注为“动态图像”的字段下方,如下所示:

“远超预期”:Midjourney在迪士尼和环球影业提起诉讼之际发布首款人工智能(AI)视频模型-AI.x社区

每个视频任务默认会生成四个不同的5秒时长的视频片段,用户可以选择将每个片段延长4秒,最多每个片段可延长至 20 秒。

“远超预期”:Midjourney在迪士尼和环球影业提起诉讼之际发布首款人工智能(AI)视频模型-AI.x社区

虽然目前视频时长还较短,但该公司已经表示,未来下一步的更新中,视频时长和功能都将会得到扩展。

Midjourney公司于2022 年夏季面世,得益于其产品更新相对频繁且具有情景逼真、创作选项多样化的优点,在人工智能图像生成领域至今仍被奉为圭皋,人们对其进入人工智能视频领域寄予厚望。

就我们目前所能看到的,用户的初步反映总体上是比较满意的,例如Perplexity AI设计师 Phi Hoang(​X用户@apostraphi​​)在​X上的一篇帖子中评论道:​“我觉得,它远超预期。”

下面是我使用我的个人Midjourney帐户生成的一个示例:

“远超预期”:Midjourney在迪士尼和环球影业提起诉讼之际发布首款人工智能(AI)视频模型-AI.x社区

实惠的价格

现有订阅计划已经开始包含视频服务,起价为每月10美元。

该公司表示,每项视频生成制作任务的成本大约是图像生成任务的 8 倍。不过由于每项视频任务能生成20秒时长的内容,因此每秒视频任务的成本与生成一张静态图片大致相当——较之众多竞争对手,Midjourney这种价格体系看起来具备一些优势。

针对专业版及以上层次订阅用户,Midjourney推出测试版“放松模式(video relax mode)”。这种模式与图像生成中的对应模式一样,延迟处理任务,来换取降低任务的计算成本。而快速生成模式则仍然根据分层的不同订阅计划以GPU分钟数为单位计量任务。

社区评论员对这一定价普遍持积极态度。人工智能领域内容创作者 @BLVCKLIGHTai 在社交媒体上强调,此价格体系下,用户为提升内容视觉质量所支付的费用大体上刚刚覆盖成本,对于以短视频方面应用为主的用户来说,该价格相当亲民。

此价格与竞争对手Luma AI的“简易网络方案”(每月9.99美元)相当,低于Runway的“标准用户”订阅计划(每月15美元)。

以下是其他一些可供选择的服务:

人工智能视频模型

公司

起步价格

OpenAI 的 Sora​​

OpenAI

ChatGPT Plus (50个视频)每月20美元起;ChatGPT Pro每月200美元起。

Google DeepMind 的 Veo 3​​

谷歌 DeepMind / 谷歌 AI Ultra

249.99 美元/月(通过 AI Ultra)

Runway 的 Gen-4​​

Runway

免费套餐;付费计划:标准版每月12美元;专业版每月28美元;无限版每月76美元。

Luma Labs 的 Dream Machine​​

Luma Labs

起价 9.99美元/月(简易网络)或 6.99美元/月,按年计费

可灵大模型

可灵(原快手)

有折扣6.99 美元/月,无折扣8.80 美元/月

MiniMax (海螺)​​

海螺人工智能 / MiniMax

按次计费每生成0.625 美元;标准套餐每月 9.99 美元或无限制版每月 14.99 美元。

Pika 实验室(Pika 2.2)​​

Pika Labs

基础用户免费;订阅9美元/月

Adobe的Firefly Video​​

Adobe

免费套餐;标准版 9.99美元/月;专业版29.99 美元/月

Higgsfield AI​​

Higgsfield AI

基础订阅计划9美元/月

Genmo (Mochi)​​

Genmo

免费(开源)

Moonvalley的Marey​​

Moonvalley

未公布

Lightricks 的 LTX 工作室​​

Lightricks

基础订阅计划9美元/月

目前还没有声音效果,并且内置编辑器的功能也比不上诸如 Runway、Sora、Luma 这样的 AI 视频工具,功能较为有限。

该模型目前最明显的缺陷是缺乏音效。

与谷歌的Veo 3以及Luma Labs的Dream Machine等竞争对手的产品不同,Midjourney的系统并不生成配套的音频轨道或环境音效。

就目前而言,任何音效都需要在后期制作阶段,通过使用单独的工具手动添加进去。

此外,Midjourney的输出内容仍然较短,最长为20秒。目前尚不支持对时间轴、场景过渡以及片段之间的连贯性进行编辑。

Midjourney表示这只是个开始,此次首发的初始版本重在具备探索性、易用性以及可扩展性。

人工智能视频市场竞争激烈,竞争压力不断增大

Midjourney的此次发布,正值人工智能视频生成技术迅速成为生成式人工智能领域中最具竞争力的领域之际。

科技巨头、风险投资支持的初创公司以及开源项目都在迅速发展。

本周,中国初创公司MiniMax发布了Hailuo 02,这一版本是其先前视频模型的升级版。早期用户反馈对其逼真程度、动作和提示的契合程度以及原生1080p分辨率的评价甚高,不过也有一些评论者认为其渲染时间仍然相对较慢。

该模型在解析复杂动作以及电影拍摄角度方面表现尤为出色,与西方科技公司同类产品(如Runway的Gen-3 Alpha以及谷歌的Veo系列)相比毫不逊色。

与此同时,Luma Labs的“梦想机器(Dream Machine)”由于能够同时生成音频和高保真视频而备受关注,而这一功能恰恰是 Midjourney 的新产品所欠缺的。与Runway一样,梦想机器(Dream Machine)还提供了一项名为“修改视频”的新功能,允许用户对视频进行风格重塑或“重新装扮”。

谷歌的Veo 3和OpenAI即将推出的Sora模型同样都在致力于能够实现更广泛的多模态合成,将文本、图像、视频和声音整合到连贯且可编辑的场景之中。

Midjourney 的应对策略似乎是追求简洁和成本效益——这也算一种“尽善尽美”的解决方案,制定适合规模化应用的价格体系,但这同时也意味着它发布的产品并未标准配备一众高端人工智能视频服务中常见的高级功能。

来自迪士尼和环球影业的知识产权侵权诉讼阴影

就在产品发布前的几天,Midjourney公司却意外卷入了一场由迪士尼和环球影业共同向美国联邦地区法院提起的大规模版权侵权诉讼。

这份长达100多页的诉讼文件指控Midjourney公司未经许可使用包括漫威、星球大战、辛普森一家和怪物史莱克等诸多受版权保护角色作为其模型训练数据,并且允许用户生成衍生内容。

控方声称,Midjourney 制造了一个“无底线剽窃”,故意让用户能够毫不费力毫无障碍地生成包含诸如达斯·维达、艾尔莎、钢铁侠、巴特·辛普森、史莱克和无牙仔等角色的可下载图像。

控方进一步指出,Midjourney使用数据抓取工具和网络爬虫来获取受版权保护的内容,并且没用采取技术措施来阻止此类受保护知识产权内容的输出。

特别值得注意的是:该诉讼先发制人地将 Midjourney的视频服务列为未来可能产生侵权行为的潜在源头,并指出该公司在发布产品前就已经开始训练该模型,并且其训练动作可能已经涉及复制这些受保护的角色。

根据该投诉,Midjourney在2024年的营收达到了3亿美元,并拥有近2100万用户。控方认为,这种规模使该平台通过无偿窃取创意活动而取得商业优势。

迪士尼的法律总顾问奥拉西奥·古铁雷斯 (Horacio Gutierrez) 直言不讳地表示:“盗版就是盗版。即便这是由一家人工智能公司实施的盗版行为,也不意味着其性质就会有所改变,更不会因此就不构成侵权。”

这场诉讼大概率会考验美国版权法在人工智能训练数据及输出控制方面的适用限度,进而可能会影响诸如Midjourney、OpenAI等此类平台将来在内容过滤机制或许可协议方面的思路。

对于那些担心侵权风险的企业来说,选择像OpenAI的Sora或者Adobe的 Firefly Video这类内置补偿机制的服务进行人工智能视频创作,可能更好一些。

“构建一个‘世界模型’并实现世界实时生成”是我们的目标。

尽管存在即时的直接风险,但Midjourney的长期规划却路线清晰且雄心勃勃。在关于视频模型发布的公开声明中,该公司表示其目标是最终将静态图像生成、动态动作、3D空间导航以及实时渲染整合为一个统一的系统,该系统被称为“世界模型”。

这些系统旨在使用户能够在动态生成的环境中自由穿梭——在这些环境中,视觉效果、角色以及用户操作都会实时变化,类似置身于沉浸式视频游戏或虚拟现实体验之中。

他们设想这样一个未来场景:用户可以发出诸如“夕阳时分漫步于摩洛哥的市场之中”这样的指令,而系统则会给出一个可探索可互动的模拟场景作为回应——其中包含着不断变化发展的视觉效果,将来最终可能还会加入生成的音效。

目前,这个视频模型只是朝着这个方向迈出的一小步。Midjourney 认为这是通往更复杂系统的一块“技术垫脚石”。

不过,Midjourney绝非唯一一家正在雄心勃勃实施此类宏大计划的人工智能研究机构。

Odyssey 是一家由自动驾驶技术资深人士奥利弗·卡梅隆(Oliver Cameron)和杰夫·哈克(Jeff Hawke)共同创立的初创公司。该公司最近推出了一个系统,该系统能够以每秒30帧的速度传输视频,并具备空间交互功能。他们的模型尝试根据先前的状态和动作来预测“世界的下一个状态”,从而使用户能够环顾四周并探索场景,仿佛置身于一个三维空间一样。

Odyssey将人工智能建模技术与自身的 360 度摄像头硬件相结合,并正在寻求与诸如Unreal Engine和Blender等3D平台的整合,以便进行后期编辑工作。然而,除了能够移动摄像头的位置,以及查看空间生成过程中模型所生成的随机景象之外,它目前还无法让用户进行更多的操作控制。

同样,长期致力于人工智能视频生成领域的Runway公司也已经开始将世界建模纳入其公开路线图中。该公司的人工智能视频模型(其最新Gen-4版本于2025年4月推出)支持先进的人工智能摄像机控制,使用户能够环绕拍摄对象,进行拉近和拉远拍摄,或者在环境中平稳移动——这些功能已经开始模糊了视频生成与场景模拟之间的界限。

在 2023 年的一篇博客文章中,Runway的首席技术官安纳斯塔西斯·格雷米迪斯(Anastasis Germanidi)将通用世界模型定义为能够深入理解环境、从而能够模拟其中的未来事件并可以和它们互动的系统。换句话说,它们不仅能够单纯生成场景的外观,还能够预测场景的行为方式。

该领域内的其他重大人工智能项目以及重要人工智能模型如下:

  • DeepMind,在机器人训练和强化学习的世界建模方面进行了基础性研究;
  • World Labs,这是由人工智能研究者Fei-Fei Li领导的新项目,专注于以仿真为核心的模型;
  • 微软,致力于探索用于企业应用(如数字孪生和基于仿真的培训)的世界模型;
  • Decart,一家低调但资金雄厚的初创公司,致力于多智能体仿真模型的研究。

尽管Midjourney的策略一直是注重易用性和便捷性,但现在它也已开始朝着更复杂的仿真框架方向发展。该公司表示,要实现这一目标,首先必须构建必要的组件:静态视觉效果(其原本的图像模型)、动态效果(视频模型)、空间控制(3D 定位)以及实时响应能力。这样看来,它这个新的视频模型只是这一漫长过程中的一个基础组成部分。

这使得Midjourney公司将自己置身于一场全球性的竞赛之中——不仅要创作出精美的媒体内容,还要构建出交互式的、人工智能所生成之世界的基础设施。

这是一次经过深思熟虑精心策划且充满希望的跨越,进入了一个日益复杂且竞争激烈的领域

Midjourney公司进军视频生成领域,乃是其广受欢迎的图像平台发展过程中的自然延伸。该平台定价合理,便于广泛使用,并降低了动态视频的应用门槛。它为创作者提供了一条可以轻松实现其视觉效果的途径——目前从其成本结构看起来既具竞争力又可持续。

但此次发布也使该公司直接面临诸多挑战。产品方面,它面临着实力强劲且反应迅速的竞争对手,这些对手功能更多且没有法律包袱;法律方面,它必须在正面临的一场诉讼中为自身进行辩护,这场诉讼可能会重塑人工智能公司在美国的训练和部署生成模型方式。

对于着眼于人工智能创意平台的企业领导者而言,Midjourney这个产品的发布可谓是一把双刃剑:它是一款成本低廉、发展迅速且用户接受度很高的工具,但同时也存在尚未解决的监管和知识产权风险,这可能会影响企业部署的可靠性或持续性。

下一步需要解决的问题是:Midjourney是否能够在不触及法律红线的前提下保持其发展速度?还是它最终将不得不对业务和技术进行重大调整,方能在日益成熟的人工智能内容生态系统中保持竞争力?

译者介绍

张哲刚,51CTO社区编辑,系统运维工程师,国内较早一批硬件评测及互联网从业者,曾入职阿里巴巴。

原文标题:​‘Surpassing all my expectations’: Midjourney releases first AI video model amid Disney, Universal lawsuit​,作者:Carl Franzen

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-6-26 08:37:04修改
收藏
回复
举报
回复
相关推荐