云原生 AI 套件｜阿里云

云原生AI套件是阿里云容器服务ACK提供的云原生AI技术和产品方案。使用云原生AI套件，您可以充分利用云原生架构和技术，在Kubernetes容器平台上快速定制化构建AI生产系统，并为AI/ML应用和系统提供全栈优化。本文介绍云原生AI套件产品架构、核心功能、使用场景、使用流程等内容。

云原生AI套件以阿里云容器服务ACK为底座，向下封装对各类异构资源的统一管理，向上提供标准Kubernetes集群环境和API，以运行各核心组件，实现资源运维管理、AI任务调度和弹性伸缩、数据访问加速、工作流编排、大数据服务集成、AI作业生命周期管理、AI制品管理、统一运维等服务；再向上针对AI生产流程中的主要环节，支持AI数据集管理，AI模型开发、训练、评测，以及模型推理服务等。

您可以通过统一的命令行工具、多种语言SDK和控制台界面，直接使用各核心组件。您也可以进行灵活地扩展、组装或二次开发，快速定制化构建AI生产系统。通过同样的组件和工具，云原生AI套件也支持阿里云AI服务、开源AI框架和第三方AI能力的集成。

此外，云原生AI套件支持与阿里云人工智能平台 PAI无缝集成，提供高效、灵活的一站式AI平台。一方面，您可以直接使用PAI平台提供的DSW、DLC、EAS等服务。这些服务借助ACK为AI模型开发、训练和推理带来了更好的弹性和效率。另一方面，云原生AI套件支持在ACK集群中一键部署轻量化人工智能平台 PAI平台，降低AI使用门槛。在Kubernetes应用中，您可以灵活地集成PAI平台深度优化的算法和引擎，依托其最佳实践沉淀，极大优化训练与推理效果。

场景一：持续优化异构资源效率

对云上各种异构计算资源（如CPU、GPU、NPU、VPU、FPGA）、存储（OSS、NAS、CPFS、HDFS）、网络（TCP、RDMA）资源，云原生AI套件支持对其进行抽象，统一管理、运维和分配，通过弹性和软硬协同优化，持续提升资源利用率。

场景二：高效运行AI等异构工作负载

云原生AI套件内置支持TensorFlow、PyTorch、DeepSpeed、Ray、Horovod、Spark、Flink、Kubeflow、KServe、vLLM、Triton inference server等主流开源或者用户自有的各种计算引擎和运行时，统一运行各类异构工作负载，统一管理作业生命周期，统一调度任务工作流，保证任务规模和性能。云原生AI套件一方面不断优化运行任务的性能、效率和成本，另一方面持续改善开发运维体验和工程效率。