官网地址:Overview — Ray 2.9.3
1.ray的概述?
Ray 是一个高性能的分布式执行引擎,开源的人工智能框架。旨在帮助开发者在原有代码上添加几行代码就可以进行分布式训练。
它由如下几个部分构成:
1)可扩展的库
用于常见的机器学习任务,如数据预处理、分布式训练、超参数调优、强化学习和模型服务。 2)Python风格的分布式计算原语
用于并行化和扩展Python应用程序。
3)集成和实用工具
用于将Ray集群与现有工具和基础设施(如Kubernetes、AWS、GCP和Azure)集成和部署。
ray对开发者友好,自动处理编排,调度,容错,自动扩展等相关方面的内容
2. ray的框架
ray的框架包含三层:
1)Ray AI Libraries
ML相关的一系列可拓展的同一开发工具
2)Ray Core
分布式计算,加速机器学习
3)Ray Clusters
和头节点关联的一系列工作节点,可固定,可拓展。
3.ray ML任务相关的五大library
-
Data: 可扩展的、与框架无关的数据加载和转换,适用于训练、调优和预测。
-
Train: 具有容错性的分布式多节点和多核模型训练,与流行的训练库集成。
-
Tune: 可扩展的超参数调优,以优化模型性能。
-
Serve: 可扩展和可编程的模型服务,用于在线推断部署,可选择微批处理以提高性能。
-
RLlib: 可扩展的分布式强化学习工作负载。