为了实现零丢包数据中心网络到底有多拼

数智时代的最大特点,就是AI人工智能的广泛应用 。
进入21世纪以来,移动通信、光通信、云计算、大数据等ICT技术蓬勃发展,推动了企业的数字化转型 。数据,变成了企业最核心的资产 。
企业将这些数据资产全部存储并运行在数据中心之上 。随着数字化的不断深入,数据规模变得越来越庞大 。

为了实现零丢包数据中心网络到底有多拼

文章插图
2025年新增的数据量将达到180ZB
(数据来源:华为GIV)
传统的软件算法 , 根本无法处理如此海量的数据(更何况,其中95%以上都是语音、视频等非机构化数据) 。于是,我们找来了能力更强的帮手,那就是——AI(人工智能) 。
AI可以完成海量无效数据的筛选和有用信息的自动重组,从而大幅提升数据价值的挖掘效率,帮助用户更高效地进行决策 。
然而,想要利用好这个神器,我们需要三大要素的支持,那就是算法、算力和数据 。
AI算法强不强,训练是关键 。深度学习的算法训练,离不开海量的样本数据,以及高性能的计算能力 。
在存储能力方面,从HDD(机械硬盘)到SSD(高速闪存盘),再到SCM(存储级内存),介质时延降低了100倍以上,可以满足高性能数据实时存取需求 。
【为了实现零丢包数据中心网络到底有多拼】在计算能力方面,从CPU到GPU,再到专用的AI芯片 , 处理数据的能力也提升了100倍以上 。
那么,这是否意味着数据中心能够完全满足AI规模应用的要求呢?
别急着说是,我们不能忘了一个重要的性能制约因素,那就是——网络通信能力 。
为了实现零丢包数据中心网络到底有多拼

文章插图
事实上,网络通信能力确实拖了存储能力和计算能力的后腿 。数据显示,在存储介质和计算处理器演进之后,网络通信时延已经成为了数据中心性能提升的瓶颈 。通信时延在整个存储E2E(端到端)时延中占比,已经从10%跃迁到60%以上 。
也就是说,宝贵的存储介质有一半以上的时间是在等待通信空闲;而昂贵的处理器 , 也有一半时间在等待通信同步 。
网络通信能力,已经在数据中心形成了木桶效应,变成了木桶的短板 。
█ 数据中心通信网络,到底出了什么问题?
上世纪70年代,TCP/IP和以太网技术相继诞生 。
它们成本低廉、结构简单,为互联网的早期发展做出了巨大贡献 。
但是,随着网络规模的急剧膨胀,传统TCP/IP和以太网技术已经跟不上时代的步伐,它们落后的架构设计,反而制约了互联网的进一步发展 。
2010年后 , 数据中心的业务类型逐渐聚焦为三种,分别是高性能计算业务(HPC),存储业务和一般业务 。
这三种业务 , 对于网络有不同的诉求 。比如HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务,对通信可靠性的要求非常高,网络需要实现绝对的0丢包;一般业务的规模巨大,扩展性强 , 要求网络低成本易扩展 。
传统以太网可以适用于一般业务,但是无法应对高性能计算和存储业务 。于是,业界发展出了Infiniband(直译为“无限带宽”技术 , 缩写为IB)网络,应对有低时延要求的网络IPC通信;发展出了FC(Fibre Channel,光纤通道)网络,提供高可靠0丢包的存储网络 。
为了实现零丢包数据中心网络到底有多拼

文章插图
IB专网和FC专网的性能很强 , 但是价格昂贵,是以太网的数倍 。而且,两种专网需要专人运维,会带来更高的维护成本 。