文献阅读《The GEM5 Simulator》

1. 文章简介 1.1 摘要 开源和社区支持的 gem5 仿真器是计算机体系结构研究领域最流行的工具之一。这种仿真基础架构允许研究人员在周期级别对现代计算机硬件进行建模,其保真度足以启动未经修改的基于Linux的操作系统,并为包括x86、Arm®和RISC-V在内的多种体系结构运行完整的应用程序。自

文献阅读《COSSIM: An open-source integrated solution to address the simulator gap for systems of systems》

1. 文章简介 1.1 摘要 在复杂的网络化异构系统时代,仅对设计中系统的部分、组件或属性进行独立仿真是不可行、不准确或不高效的。交互作用太多、太复杂,无法产生有意义的结果,而且以孤立的方式考虑系统的每个部分时,优化机会受到严重限制。所介绍的 COSSIM 仿真框架是首个已知的开源高性能仿真器,可全

文献阅读《TOPOOPT: Co-optimizing Network Topology and Parallelization Strategy...》

WANG W, KHAZRAEE M, ZHONG Z, et al. TopoOpt: Co-optimizing Network Topology and Parallelization Strategy for Distributed Training Jobs [Z]. NSDI. 2023

文献阅读《Adaptive and Hierarchical Large Message All-to-all Communication Algorithms...》

I. 前置内容 在了解集合通信(Collective Communication)之前要先了解点P2P对点通信(Point-to-Point)。P2P通信通常为两个不同进程间的通信,是1对1的; 在MPI规范中,既有同步阻塞的P2P接口:MPI_send和MPI_Recv接口,也定义了非阻塞的P2P

集合通信-通信原语

参考来源: 分布式训练常用的集合通信及其通信原语, 分布式训练常用的网络结构及集合通信拓扑算法
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×