## Google Kubernetes Engine (GKE) 扩展以支持 AI 工作负载 – 摘要
Google Cloud 正在积极扩展 Google Kubernetes Engine (GKE),以满足日益复杂的 AI 工作负载需求。他们已成功测试了一个 **130,000 节点集群**,是官方支持限制的两倍,维持 **每秒 1,000 个 Pod**,并管理超过 100 万个存储对象。
这一推动源于已经运行在 20-65K 节点范围内的客户,预计需求将稳定在 100K 节点左右。然而,扩展到超出这个范围带来了新的挑战,主要在于 **功耗**,因为 AI 芯片(如 NVIDIA GB200s)需要大量的能源。这需要强大的 **多集群解决方案**,通过 MultiKueue 等工具和像托管 DRANET 这样的高级网络进行编排。
实现这种规模的关键创新包括通过改进的 API 服务器缓存实现 **优化的读取可扩展性**,基于 Spanner 构建的 **高性能分布式存储后端**,以及 **Kueue** 用于高级作业队列。未来的开发重点是 Kubernetes 本身中的 **工作负载感知调度**,以及通过 **Cloud Storage FUSE** 和 **Managed Lustre** 等解决方案实现高效的数据访问。
这些改进不仅使大型用户受益,还提高了所有 GKE 集群的弹性和性能,无论其规模如何。