文献阅读《Alibaba HPN: A Data Center Network for Large Language Model Training》

Alibaba High Performance Network (HPN) HPN介绍了一种两层的双平面网络,可以在一个Pod中接入1.5w个GPU,通常需要3层Clos架构的网络才能容纳这么多GPU HPN 提出了一种新的双 ToR 设计,以取代传统数据中心网络中的单 ToR 1. 贡献与挑战

文献阅读《Tofu: a 6D mesh/torus interconnect for exascale computers》

在XYZ维度拓扑结构类似3D Torus架构 在ABC维度按照如图所示的架构链接 每个节点需要引出来10个链接,每XYZB轴各2条,AC轴为1条

文献阅读《TPU v4: An optically reconfigurable supercomputer for machine learning with hardware support ...》

1. 内容简介 1.1 摘要 为了应对机器学习(ML)模型的创新,生产工作负载发生了翻天覆地的变化。TPU v4 是谷歌第五个特定领域架构(DSA),也是第三台用于此类 ML 模型的超级计算机。光路交换机(OCS)可以动态地重新配置其互连拓扑结构,以提高规模、可用性、利用率、模块化、部署、安全性、功

文献阅读《NS3 Simulator for a study of Data Center Networks》

1. 文章简介 1.1 摘要 部署在数据中心网络(DCN)上的应用日益复杂和先进,对 DCN 的新功能和更高性能提出了更高要求。这就产生了许多设计,以应对成本、性能、可靠性、可扩展性、安全性和能源等各种挑战。设计人员经常面临的一个主要挑战是如何实现他们提出的设计或实现现有设计进行比较。虽然原型设计是

文献阅读《COSSIM: An open-source integrated solution to address the simulator gap for systems of systems》

1. 文章简介 1.1 摘要 在复杂的网络化异构系统时代,仅对设计中系统的部分、组件或属性进行独立仿真是不可行、不准确或不高效的。交互作用太多、太复杂,无法产生有意义的结果,而且以孤立的方式考虑系统的每个部分时,优化机会受到严重限制。所介绍的 COSSIM 仿真框架是首个已知的开源高性能仿真器,可全
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×