斯坦福教授曼宁:AI巨模型训练成本动辄几十万,穷博士和小公司用不起了

新闻
近几年来,AI 模型性能越发强大,但规模也越做越大,训练成本高居不下,小公司即使想用也往往有心无力。未来的 AI 创新真的只能靠巨头了吗?

 Glean 是一家从事搜索业务的创业公司,一直很想使用最新的 AI 算法来改进公司的产品。

  Glean 提供 Gmail、Slack 和 Salesforce 等应用程序进行搜索的工具,用于解析语言的新 AI 技术,可以帮助公司的客户更快地发掘正确的文件或对话。

[[430851]]

  但是训练这样一个尖端的人工智能算法需要花费数百万美元。因此 Glean 使用更小、能力更弱的 AI 模型,这些模型无法从文本中提取出尽可能多的含义。

  Glean 对此也是颇为无奈。

  「对于预算较少的小企业来说,很难获得与谷歌或亚马逊等公司相同精度的结果,对于这些小公司而言,要想搞出最强大的人工智能模型是不可能的。」公司表示。

  过去十年中,AI 产生了一系列令人兴奋的突破,目前已经可以在复杂的游戏中击败人类,可以在特定条件下驾驶汽车穿过城市街道,响应口头命令,并根据简短的提示编写连贯的文本。

  一方面,这些进步在很大程度上是因为算法有了更多的文本作为训练数据。另一方面,为了消化这些数据,使用了更多的芯片。

  这是要花钱的。

  以 OpenAI 的语言模型 GPT-3 为例,这是一个大型的、数学模拟的神经网络,从网络上抓取大量文本进行训练后,GPT-3 可以以惊人的连贯性预测哪些词应该填在其他词前后,生成流畅的文本,而且是开箱即用的。

  GPT-3 在回答问题、总结文本和纠正语法错误等任务上明显优于以前的 AI 模型。与上一代的 GPT-2 相比,性能实现了 1000 倍的增长。不过,据估计,训练 GPT-3 的成本接近 500 万美元。

  「如果 GPT-3 既方便又便宜,会大大增强我们的搜索引擎,那会非常非常强大。」

  对于希望拥抱 AI 转型传统企业来说,训练高级 AI 的成本不断上升也同样是一个问题。

[[430853]]

  Dan McCreary 在健康 IT 公司 Optum 领导一个团队,该团队使用语言模型来分析通话记录,识别哪些患者风险较高,哪些应该及早推荐转诊。

  他说,现在即使训练一个 GPT-3 大小千分之一的语言模型,也会很快耗尽团队的预算。他们需要的模型针对特定任务进行训练,成本可能超过 50000 美元,这笔钱要付给云计算公司,作为租用其计算机和程序的租金。

  McCreary 表示,云计算供应商没有理由降低成本。现在他正在考虑自己购买加速人工智能训练的专用芯片。

  现在,许多学术实验室和创业公司可以直接下载并使用最新的理念和技术。比如在图像处理方面取得突破的算法来自学术实验室,使用现成的硬件和公开共享的数据集开发。

  然而,随着时间的推移,越来越清楚的一点是,AI 的进步与底层计算机性能的指数级增长息息相关。

  有了算力,才有创新。没有钱,就没有算力。

[[430854]]

  现在,一些大企业进一步把这个趋势推得越来越高。近日,微软表示,它和英伟达合作,构建了一个比 GPT-3 大两倍的语言模型。

  MLCommons 是一个跟踪 AI 专有芯片性能变化的机构。该机构的执行董事大卫·坎特 (David Kanter) 表示:「未来训练 AI 的成本绝对会继续上升。」

  Mosaic ML 的技术可以帮助大公司将模型提升到一个新的性能水平,也可以帮助没有深厚 AI 专业知识、也没那么有钱的小公司利用 AI 技术。

  利用最新技术的成本不断上升,可能会将创新留给最大的公司和租赁工具和算力的公司,从而减缓创新的步伐。

[[430855]]

  「我认为这种情况确实会阻碍创新。」专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说。

  「当只有少数几个地方才能研究这些大模型的内部结构时,出现创造性新成果的几率一定会大大降低。」

  曼宁说,就在十年前,他的实验室有足够的计算资源来探索任何项目。「一个努力工作的博士生就可能会做出最先进的工作,而现在,这个窗口已经关闭了。」

  与此同时,不断上涨的算力成本,促使人们寻找更有效的 AI 算法训练方式。目前已经有数十家公司开发用于训练和运行 AI 程序的专用计算机芯片。

[[430856]]

  所以,特斯拉设计自己的车载芯片,也许只是为了训练自动驾驶的 AI 模型。

  Mosaic ML 是一家源自 MIT 的初创公司,主要开发提高机器学习训练效率的软件和技术。

  一种技术是对神经网络进行「修剪」,消除网络结构中的低效率部分,创建一个功能类似、但规模小得多的网络。

  早期的结果表明,这种方法应该可以将训练 GPT-3 之类的网络所需的计算机功率减少一半,从而降低开发成本。

  Mosaic ML 计划将大部分技术开源,同时也为降低 AI 技术成本的公司提供咨询服务。Carbin 说,未来可能会有一种这样的产品,一款能够在训练模型的准确性、速度和成本方面实现权衡的工具。

  「不过目前,还没有人真正知道如何将所有这些方法组合在一起。」他说。

 

责任编辑:张燕妮 来源: 新智元
相关推荐

2022-05-01 15:42:30

NLP人工智能自然语言处理

2023-07-18 13:56:23

福坦斯

2019-12-16 14:33:01

AI人工智能斯坦福

2012-09-28 11:29:35

创业GooglePageRank

2023-02-12 14:00:52

ChatGPTAI人类

2017-11-28 14:18:29

2018-12-03 09:35:26

互联网

2020-10-27 15:04:14

AI 数据人工智能

2023-07-21 14:47:24

AI训练

2022-02-14 19:20:53

AI算法模型

2023-11-29 14:53:00

AI数据

2023-12-08 13:22:00

数据模型

2021-07-06 10:37:37

模型人工智能深度学习

2023-02-20 13:50:39

AI 领域建模大数据

2014-05-15 16:38:02

职业创业

2022-10-11 15:02:58

勒索软件安全IT

2018-01-23 16:48:47

AI

2019-03-24 12:11:47

AI 数据人工智能

2023-12-05 13:38:11

架构模型
点赞
收藏

51CTO技术栈公众号