
发布
一个 AI 团队在 GKE Standard 模式下使用 T4 和 A100 GPU 节点,但发现节点自动升级后 GPU 驱动未正确安装,导致 nvidia-smi
失败和 Pod 调度异常。虽然 GKE Autopilot 自动管理驱动,但 Standard 模式需手动干预。技术挑战包括:如何部署 NVIDIA GPU Driver Installer Operator(通过 kubectl apply -f
);创建 GPUDriver
自定义资源(CR)指定驱动版本(如 535.129.03
)与容器镜像;监控 gpu-operator
命名空间下的 Pod 状态与日志;处理多 GPU 类型混合节点池的兼容性问题;以及结合 Node Pool Upgrade 策略确保驱动与内核版本匹配。应如何实现 GPU 驱动的自动化、声明式管理?