以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%

人工智能
分布式计算初创公司Monster API日前表示,采用加密货币挖矿设备可以满足训练AI模型对GPU处理能力不断增长的需求,其开发的系统可以扩展到数据中心之外的其他搭载GPU的设备(例如Macbook、游戏机甚至特斯拉汽车等),从而大幅降低开发和训练AI模型的成本。


image001.jpg

Monster API利用采矿设备等GPU算力来训练AI模型

GPU通常用于挖掘比特币等加密货币,而挖矿是一种资源密集型的过程,需要强大的计算能力。

加密货币炒作一度导致市场上GPU短缺,随着价格飙升,企业和个人转向采用英伟达(Nvidia) 为游戏行业提供的GPU,并将其转变为加密挖矿设备专用的GPU。 

然而随着加密货币热潮的消退,许多加密挖矿设备关闭甚至被废弃。这让Monster API创始人Gaurav Vij意识到,他们可以重新改变和调整这些设备的用途,以适应最新的计算密集型发展趋势,也就是训练和运行AI基础模型。 

虽然这些GPU并不具备AWS或谷歌云等部署的专用AI设备的强大功能,但Gaurav Vij表示,它们能够训练优化的开源模型,其成本仅为使用云计算提供商使用的超大规模计算设备的一小部分。

Monster API联合创始人Saurabh Vij表示:“机器学习领域实际上正在与计算能力作斗争,因为需求已经超过了供应。大多数机器学习开发人员如今都依赖AWS、谷歌云、微软Azure来获取资源,最终花费了大量资金。” 

分布式算力网络可以大幅降低AI基础模型训练成本

实际上,除了加密采矿设备之外,在PlayStation 5等游戏系统和较小的数据中心中也可以找到未使用的GPU。Saurabh Vij表示:“加密采矿平台采用GPU,而游戏系统也采用GPU,且GPU的功能每年都会变得更加强大。”

企业和个人的算力汇入分布式网络需要经历包括数据安全检查在内的一系列流程。需求方根据需求添加设备,扩展和缩小算力网络。供应方可以从出售闲置算力中获得了一部分收入。

Saurabh Vij强调,分布式计算系统将AI基础模型的训练成本降低到了将来可以由开源和非营利组织训练的程度,而不仅仅是财力雄厚的大型科技公司。“如果建立一个AI基础模型需要100万美元,那么像我们这样的去中心化网络只需要10万美元。”

极客网获悉,Monster API现在还提供“无代码”工具来微调模型,并向那些没有技术专长或资源的用户开放,让他们从头开始训练模型,进一步“民主化”计算能力和AI基础模型。 

“微调非常重要,因为大量的开发者没有足够的数据和资金来从头开始训练模型。”他表示,通过优化,Monster API已将微调成本削减90%,使得每个模型的微调费用约为30美元。 

开源模型训练可以帮助开发人员利用AI进行创新 

虽然AI开发商面临迫在眉睫的监管,这可能会直接影响到这些训练模型和开源,但Saurabh Vij认为开源模型训练有其积极意义。Monster API已经认识到有必要在其分散的网络中管理潜在风险,并确保“可追溯性、透明度和问责制”。   

“在短期内,也许监管机构会获胜,但我对开源社区非常有信心,它的发展非常非常快。在Postman (API开发平台)上有2500万注册开发人员,其中很大一部分正在构建生成式AI,这为所有人开辟了新的业务和新的机会。”他表示。

极客网了解到,通过训练低成本的AI模型,Monster API的目标是让开发人员最大限度能够利用机器学习进行创新。目前他们已经有了一些知名的AI模型(例如Stable Diffusion和Whisper)可以进行微调,此外用户还可以使用这些GPU算力从头开始训练自己的AI基础模型。

Saurabh Vij介绍称:“我们已经在Macbook上进行了文图生成实验,每分钟至少可以输出10张图像。我们希望在网络上接入数百万台Macbook,让用户在睡觉时也能使用他们的Macbook运行Stable Diffusion、Whisper或其他AI模型获利。

“最终,Playstation、Xbox、Macbook都将成为强大的计算资源,甚至是特斯拉汽车——因为特斯拉汽车也采用了强大的GPU,而且大多数时候停在车库中。”Saurabh Vij补充道。

责任编辑:庞桂玉 来源: 极客网
相关推荐

2019-05-05 08:37:39

分布式PyTorchGPU

2022-04-08 14:40:59

框架训练模型

2022-11-09 13:53:45

AI图像

2023-06-16 15:19:23

AI训练数据

2017-09-01 05:35:58

分布式计算存储

2023-02-20 13:50:39

AI 领域建模大数据

2023-01-05 21:25:06

毫末

2024-03-20 11:07:57

AI计算CPUGPU

2020-03-24 15:08:07

AI 数据人工智能

2023-06-20 17:53:53

2023-10-26 18:10:43

分布式并行技术系统

2023-07-12 10:04:20

模型训练

2022-09-13 21:32:09

毫末

2023-10-18 12:50:12

数据模型

2022-10-19 14:03:45

开源AI

2024-01-18 10:52:38

Raft数据库

2018-05-19 00:26:13

UAI Train分布式训练

2023-12-07 07:27:03

大语言模型分布式训练

2023-05-19 13:01:10

ChatGPT模型

2011-11-24 10:02:13

诺基亚LumiaLumia 800
点赞
收藏

51CTO技术栈公众号