OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

人工智能 机器学习
为了满足 GPT-3、CLIP 和 DALL+ 等大型模型的需要,以及类似于神经语言模型的缩放定律的快速小规模迭代研究,OpenAI 将基础设施 k8s 集群扩展到 7500 各节点。

为了满足 GPT-3、CLIP 和 DALL+ 等大型模型的需要,以及类似于神经语言模型的缩放定律的快速小规模迭代研究,OpenAI 将基础设施 k8s 集群扩展到 7500 各节点。

据其描述,对于大型机器学习作业来说,一个节点通常由单个 pod 占据,并且 OpenAI 部署的集群具有二等分带宽,因此尽管其有许多节点,但是调度程序的压力相对较低,仅在一项新任务一次性创建数百个 pod 时会有调度压力。

除此之外,OpenAI 还详细说明了其在扩展 k8s 集群时的重要工作内容,比如通过改用基于别名的 IP 寻址来解决大量节点的联网问题,在专用节点上部署 etcd 和 API 服务器以分散负载,定位使用 Prometheus 和 Grafana 收集指标时的 OOM 问题,设计对集群的健康检查,以及在团队中合理分配集群资源等。

不过,OpenAI 也指出,在扩展 k8s 集群时,目前仍有一些问题要解决,比如大规模时 Prometheus 的内置 TSDB 存储引擎压缩速度过慢,并且需要很长的时间才能重新启动 WAL(写入预录),以及扩展集群时,由于每个 pod 都会被计算为需要一定带宽而带来的网络带宽压力。然而,尽管还有很多地方需要改进,但 k8s 凭借其出色的扩展能力,仍然能满足其研究需求。

本文转自OSCHINA

本文标题:OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

本文地址:https://www.oschina.net/news/127949/openai-scale-k8s-7500

责任编辑:未丽燕 来源: 开源中国
相关推荐

2020-12-15 18:56:26

MirantisDockersKubernetes

2020-04-16 09:00:00

机器学习Kubeflow人工智能

2022-04-22 13:32:01

K8s容器引擎架构

2023-01-04 17:42:22

KubernetesK8s

2020-02-29 15:20:18

K8SKubernetes集群

2023-11-06 07:16:22

WasmK8s模块

2023-09-06 08:12:04

k8s云原生

2022-12-27 14:18:45

K8S命令

2020-07-17 17:17:16

Kubernetes宕机Spring Clou

2022-02-08 15:59:29

k3sk8sDevOps

2023-11-02 08:01:22

2020-06-03 15:56:46

红帽云原生Quarkus

2024-03-12 15:47:12

Kubernetes容器K8S

2012-11-12 10:13:09

2021-05-14 09:00:00

机器学习数据集工具

2020-05-12 10:20:39

K8s kubernetes中间件

2022-09-05 08:26:29

Kubernetes标签

2024-01-07 19:43:50

K8S节点

2023-08-04 08:19:02

2023-08-03 08:36:30

Service服务架构
点赞
收藏

51CTO技术栈公众号