异构集群(Heterogeneous Clusters)

异构集群(Heterogeneous Clusters)

1. HeteroG

参考文献:

Yi X, Zhang S, Luo Z, et al. Optimizing Distributed Training Deployment in Heterogeneous GPU Clusters: Proceedings of the 16th International Conference on emerging Networking EXperiments and Technologies[C], Barcelona, Spain, 2020. Association for Computing Machinery.

一个集群中的GPU型号和性能可能都有所不同,但是在并行计算的时候往往假设每个参与并行的设备算力都是相等的,但是实际上由许多不同型号的GPU组成的集群仍然存在,为了解决这个问题,有相关的研究者提出了HeteroG方法,在异构集群上实现有效率的并行计算。

​图. HeteroG的工作流程图

  1. 首先对开发者构建的网络进行分析,根据模型的需要决定是否需要进行MP

  2. 然后根据策略将模型分发到各个设备上进行开销测试(Profiler)和仿真计算(Simulator)然后根据这个测试结果指定相应的并行策略(Strategy Maker)

  3. 完成策略制定后重新对网络图进行重新编译(根据MP和DP的测算结果决定)然后开始并行计算

  4. 这个工作主要由一个经过训练的神经网络完成

最终实验结果证明与当前其他的并行策略相比,在异构集群的并行计算上有222%的性能提升。

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×