为了实现零丢包数据中心网络到底有多拼( 三 )


为了实现零丢包数据中心网络到底有多拼

文章插图
华为iLossless智能无损算法以Automatic ECN为核心,并首次在超高速数据中心交换机引入深度强化学习DRL(Deep Reinforcement Learning) 。
对比传统静态阈值配置僵化 , 无法动态适应网络变化的缺点 , Automatic ECN为以太网的流量调度提供了智能预测能力,可以根据当前流量状态精准预测下一刻的拥塞状态,提前做好预留和准备 。
基于iLossless智能无损算法,华为发布了超融合数据中心网络CloudFabric 3.0解决方案,引领智能无损进入1.0时代 。
2022年,华为超融合数据中心网络继续探索 , 提出了更强大的智能无损网算一体技术和创新直连拓扑架构,可实现270k大规模算力枢纽网络(组网规模4倍于业界,可助力构建E级和10E级大型和超大型算力枢纽) , 时延在智能无损1.0的基础上,可进一步降低25% 。
为了实现零丢包数据中心网络到底有多拼

文章插图
华为的智能无损2.0,基于在网计算(In-network computing)和拓扑感知(Topology-Aware Computing)实现网络和计算协同 。一方面 , 网络参与计算信息的汇聚和同步,减少计算信息同步的次数;另一方面,通过调度确保计算节点就近完成计算任务,减少通信跳数,进一步降低应用时延 。
以MPI_allreduce为例 , 相比传统网络仅做数据转发不参与计算过程,华为超融合数据中心网络可有效降低时延,提升计算效率27% 。
为了实现零丢包数据中心网络到底有多拼

文章插图
华为超融合数据中心网络解决方案,为数据中心构建了统一融合网络,取代了此前的三种不同类型网络(LAN、SAN、IPC) , 大幅减少了网络建设成本和运维成本 , 总成本TCO下降了53% 。AI业务的运行效率 , 则提升了30%以上 。
█ 智能无损技术的积累沉淀
近年来,华为围绕智能无损网络和iLossless智能无损算法,接连发布了多个产品和解决方案 。
2018年10月 , 华为就发布了AI Fabric极速以太网解决方案,帮助客户构建与传统以太网兼容的RDMA网络,引领数据中心网络进入极速无损的高性能时代 。
2019年1月,华为又发布了业界首款面向AI时代的数据中心交换机CloudEngine 16800,承载了iLossLess智能无损交换算法,实现流量模型自适应自优化,从而在零丢包的基础上,获得更低时延和更高吞吐的网络性能 。
为了实现零丢包数据中心网络到底有多拼

文章插图
2021年6月 , 华为发布全无损以太存储网络解决方案(NoF ) 。该方案基于OceanStor Dorado全闪存存储系统和CloudEngine数据中心存储网络交换机构建 , 可实现存储场景端到端数据加速 , 充分释放全闪存性能潜力 。
除了自身积极进行技术研究和产品化之外,华为还积极推动相关技术标准的成熟 。
2021年8月,华为发布的智能无损技术论文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能数据中心网络中的ECN动态调优)入选全球网络通信顶级会议ACM SIGCOMM 2021,得到业界专家的一致认可,具有世界级技术影响力 。
在华为主导下 , IEEE 802成立了Nendica(“Network Enhancements for the Next Decade” Industry Connections Activity)工作组,联合业界共同探讨以太网技术标准发展的新方向 , 为智能无损网络技术发展提供了理论研究的开放土壤 。
█ 智能无损技术的落地实践
经过实际项目验证并获得客户认可的技术,才是可靠的技术 。