通讯信息首页 频道列表 分享好友

阿里云入局,全球争抢新一代云计算标准「定义权」

2022-06-17 15:54141951
在 2022 年阿里云峰会上,阿里云正式发布了 CIPU(Cloud infrastructure Processing Units)。这是一套阿里云历时 7 年所打造的云数据中心专用处理器,未来将替代 CPU 成为云计算的管控和加速中心。
「CIPU」虽然是个新名词,但「云计算管控加速处理器」却是近年间云计算产业大火的概念。
随着云计算技术的不断普及,产业诞生了越来越多超大规模的云计算服务器阵列,如何将这遍布全球的百万计算节点调度统一,成为了困扰云厂商的一大难题。
与此同时,近年大火的人工智能、自动驾驶等技术,更是催生了低延迟、高算力的数据密集型应用爆发式增长,传统的云计算发展路径越来越难以满足需求。
CIPU 应运而生。
01. CIPU,是跟跑还是领跑?
「云计算管控加速处理器」是目前云计算产业最火的技术之一。
三年前,英伟达就曾超 70 亿美元收购以色列芯片制造商 Mellanox,以 BlueField 系列产品切入这一赛道;英特尔、Marvell、博通等厂商也纷纷发力,不断推出 DPU、IPU 等相关产品。
与此同时,创业赛道也是风起云涌。仅就国内而言,芯启源、大禹智芯、中科驭数、星云智联、云豹智能等 DPU 创业公司也在近年间纷纷斩获融资、发布新品,市场好不热闹。
作为云计算服务的提供者,也是芯片的最大用户之一,阿里云则在更早之前就在察觉到了这一技术的重要性。
在过去十多年的发展中,云计算技术先是完成了以分布式和虚拟化技术对大型机的替代,又以资源池化技术突破了规模和稳定性的瓶颈,为用户提供了超大规模的云计算服务。
不过,虚拟化与资源池化的技术遇上以 CPU 为中心的数据中心架构,又带来了新的问题。
举个例子,虚拟化能够将计算资源进行重新定义与划分,极大提高了信息资源的利用率,但与此同时,这项技术也会带来难以忽视的性能损耗。
为了解决服务器长久以来的虚拟化性能损耗的问题,阿里云的相关研发团队从 2015 年就开始技术攻关,并于 2017 年推出业内首款虚拟化损耗为零的神龙云服务器。
此后,经过多年自研迭代,阿里云又对神龙、弹性 RDMA 等核心技术不断深入整合,并逐渐演进出以「CIPU」为中心的全新架构形态。
在这个全新体系架构下,CIPU 向上接入飞天云操作系统,向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速。
从部分功能上看,CIPU 与英伟达、英特尔等产业巨头近年来陆续推出的 DPU、IPU 芯片新品相近。
不过,供应商的产品难以针对每一朵云进行深度定制,其产品更多还是以「协助」为主。

与它们不同的是,阿里云的 CIPU 在虚拟化、网络、分布式存储、本地存储、安全、运维、池化等多个方面,与阿里飞天云操作系统进行了深度融合,通过 " 软件定义、硬件加速 ",不仅能够协助计算资源调度,更能够「管控」全局,将百万台服务器,变成一台「超级计算机」,全面放大技术优势。

"CIPU 是云计算发展的一个必然。" 阿里云技术产品负责人蒋江伟在采访中这样说道。
对于用户来说,CIPU 的优势可以体现为:
1、性能更强
这是最直观的一项参数。蒋江伟表示,在 CIPU 的加持之下,原来需要 3.5 台服务器的计算资源才能完成的计算任务,如今只需要 2.5 台。
2、计算效率更高
通过 CIPU 对于计算资源的调度、协同、管控,让同样数量的计算资源发挥出更高的计算效率。
举个例子,一直以来,RDMA 都是一个比较「贵族化」的技术,性能强大,但是技术门槛很高。想要用好它,对工程师、代码、硬件投入都提出了非常高的要求。
基于 CIPU,阿里云推出了 eRDMA(弹性 RDMA)技术,通过它,阿里云能够将 RDMA 技术快速普惠化,让用户能够在云上大规模应用高性能网络加速服务,用同样的计算资源与人力投入,获得别人投入几百甚至上千人的研发效果。
3、系统更稳定
作为百万台服务器的「管控中心」,CIPU 上还沉淀了大量的控制、调度数据,让阿里云能够根据这些数据提前预测单个节点产生故障的可能性,提前排查,保障数据中心的安全稳定运行。
基于 CIPU 和飞天的新一代云计算架构体系,阿里云在这次的 2022 年阿里云峰会上,又刷新了自己的数据记录。

CIPU 加持之下,阿里云在通用分布式计算领域,Redis 性能提升了 68%、MySQL 提升了 60%,Nginx 提升了 30%;在大数据和 AI 等计算与数据双密集场景下,相比传统的 TCP 网络,弹性 RDMA 高性能网络的吞吐能力提升 30% 以上。

CIPU 与存储、网络的结合,则能够使阿里云云盘存储 IOPS 最高可达 300 万,长尾时延降低 50%,网络时延最低达到 5us," 访问云端比访问本地硬盘更快 "。
" 新一代云计算体系不仅会对云、对数据中心内部产生影响。这也会改变传统计算机终端形态、以及软件应用和开发界面。" 阿里云智能总裁张建锋说。
02. 走进数据中心的云时代
改变以硬件为主导的传统 IT 体系,建立以云为主导的新体系,是每一个云厂商的技术理想。
而在数据密集型计算需求爆发式增长的当下,这一理想不仅仅停留在技术愿景与发展方向,而是成为了实实在在的迫切需求。
一方面,以 AI 为代表的新兴计算场景所需算力爆增。
根据 OpenAI 数据,自 2012 年以来,AI 训练任务所需要的计算力每 3.43 个月就会翻一倍,六年以来累计暴涨超过 30 万倍,远远超过了摩尔定律的极限。以 CPU 为中心的传统 IT 体系已经无法满足日益增长的算力需求。
另一方面,随着自动驾驶、虚拟人等对低延迟、高带宽需求敏感的应用场景增多,用户对于云服务的速度、效率、稳定性都提出了更为极致的要求。
以特斯拉为例,其百万级的汽车保有量每日行进在路面上,其采集、分析、存储的数据量接近天文数字,无法全部靠终端进行处理。可汽车又是一款需要配备极高安全冗余的特殊终端,一旦需要接入云端服务,现有的 IT 体系几乎无法满足其需求。
此外,随着云计算应用的快速普及,越来越多应用场景开始从「南北向流量」演进为「东西向流量」,数据中心内部传输的数据量激增,大规模数据的传输与搬迁成为了限制云计算发展的又一难题。
以阿里云为例。阿里云在全球布置了上百万台服务器,属于超大规模的云计算阵列。倘若仅靠以 CPU 为中心的传统 IT 体系,几乎无法对这上百万台服务器进行计算、存储、网络资源进行统一的管理、调度、编排,让资源能够合理、高效利用。
CPU 成为数据高速传输的瓶颈,云计算体系迫切地需要重构,需要新架构、新设计、新方案。全球顶级的 IT 巨头,都在寻找解决办法。
而在阿里云关于建立「新一代云计算体系」的答卷中,CIPU 是关键一环。
在阿里云的这套新一代云计算体系中,话语权从「服务器里的 CPU」移至「服务器外的 CIPU」,CIPU 相当于一个统领全局的云控制器,将集成、调度功能从不堪重负的 CPU 中抽离出来,承担着协调控制大量需要跨网络进行计算、存储、数据交互的过程。
有了这样一个更高层级的控制器,阿里云就能够突破超大规模资源池化的调度瓶颈,让陷入百万节点调度「泥潭」的数据中心能够轻装简行,更快、更敏捷、更灵活。
得到减负的 CPU,则可以继续发挥其核心算力提供者的地位,成为阿里云「一云多芯」体系的重要组成部分。
CIPU 虽然是阿里云新系统的关键一环,不过阿里云对新一代云计算体系的布局,却并非是从 CIPU 才开始的。

早在去年,阿里云就宣布了其「一云多芯」的核心战略——以飞天操作系统为核心,全面向下兼容 x86、ARM、RISC-V 等多种芯片架构,以及飞腾、鲲鹏、AMD、Ampere 等多种 CPU,并将其封装成直接面向用户的标准算力,既解决了 CPU 不兼容导致的云和软件开发问题,又让更多种类的芯片进入云计算生态。

作为这套战略的一部分,阿里云还在去年推出了自研 CPU「倚天 710」,这是一款集成了 600 亿颗晶体管的 5nm 数据中心 CPU,采用 ARMv9 架构,主频最高达到 3.2GHz。这款 CPU 不仅为阿里云量身定制,更是阿里云「一云多芯」战略的延伸,加深了阿里云对底层硬件产业链更为深入、全面的理解。

目前,倚天 710 已在阿里云数据中心内部规模化部署,并顺利完成了 2021 年「双 11」等多个核心业务。今年 4 月,基于倚天 710 的公共云 ECS 实例也已上线邀测。
如今,阿里云「CIPU」的推出,则又更进一步地与一云多芯战略呼应,更进一步将以 CPU 为中心的传统云计算体系推向下一个时代,掀开了阿里云新体系的一角,从云效率最大化出发,重构数据中心,构建一个软硬一体的「新一代云计算体系」。
03. Back to Basic,阿里云的 " 定义权 " 理想
当前,海外 IT 巨头如 AWS、谷歌、微软都在争夺下一代云计算标准的定义权,英特尔、英伟达等芯片巨头也都纷纷将业务发展重心瞄准了数据中心,阿里云此时携 CIPU 入局,云计算的战场无疑将变得更加有趣。
但这绝不是一场一劳永逸的战斗——这是一场长征,一场技术长征。
自「云计算」这一概念诞生以来,围绕着云计算技术标准定义权的争夺就从未停歇,几十年间,多少玩家浮浮沉沉。因为选错了技术路径、贻误了入场时机、放缓了前进脚步,导致最终总是落后市场半拍,跟着别人的研究亦步亦趋的故事,在 IT 产业里有很多。
举个例子,早在 1965 年——互联网诞生之前—— IBM 就开始研发虚拟机技术,并在此后推出了人类历史上第一个虚拟机系统 CP-40/CMS。
然而,IBM 高层错误地判断了云计算的市场发展,导致公司作为底层技术的先发者,却并未吃到云计算的第一口红利,而是在亚马逊 2002 年切入 AWS 的五年之后,才终于推出 Blue Cloud 计划,贻误了最好的战机。
国内云计算产业的发展也经历了类似的战局。
2007 年,阿里率先入主云计算产业,启动飞天云操作系统的自研,开始不声不响地推行「去 IOE」化。

阿里的新动作,行业并不是不知道,可互联网泡沫的教训仍旧历历在目,国内 IT 产业对此仍然存疑。在三年后那场知名的 2010 中国(深圳)IT 领袖峰会上,两位技术出身的 CEO ——李彦宏与马化腾分别将云计算称为「新瓶装旧酒」与「可能要过几百年、一千年后才能实现」。

唯一一个非技术出身的 CEO 马云的观点则是「可能是因为不懂技术的缘故……我最怕就是老酒装新瓶的东西,你看不清他在玩什么,突然爆发出来最可怕。」
此后的十年间,阿里云以惊人的速度腾飞爆炸,带领了整个中国云计算产业迈向了一个新台阶。「飞天」成为我国唯一一个自研云操作系统,并陆续向下生长出芯片、服务器、操作系统、数据库、AI 平台等以云为基础的软硬件技术体系。
在每一个新时代的清晨,选择正确的路径,拥有先发的优势,将意味着企业拥有对行业未来发展路径的定义权——这是每一个技术厂商的理想。
" 这几年,我们看到云计算进入了一个新的发展阶段,我们越来越接近于下一个时代。" 在 2022 年阿里云峰会上,阿里 CTO 张建锋这样说。
下一代的云——全新的架构定义,全新的软件界面,全新的硬件加速。
路径的选择源于对技术的深入理解,技术的理解源于扎实的基础研究。
阿里云今年最重要的策略是「B2B」—— Back to Basic,回到云计算的本质,做深基础研究,坚持在技术的长征路上不断取得新的突破。
阿里云张建锋:BACK TO BASIC 定义下一代的云
在这场新一代云计算路线之争上,阿里云打响了第一枪。
" 我们错过了 PC 时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。" 张建锋说。
反对 0
举报 0
收藏 0
打赏 0