通讯信息首页 频道列表 分享好友

反思:中国超级计算机研制的五大短板

2021-07-24 18:28676770

编者按:

科研创新不是带兵打仗。如果没有实际应用作为核心驱动力,而是单纯以“突破封锁”、实现短期指标优胜为第一目标,在长期发展中难免面临困境和尴尬。检视中国超级计算机的研制历史,除了敬佩那些付出辛劳甚至生命的科研人员,在当下的历史语境中,还更要反思其中的教训,才能让我们的科技创新之路走得更坚实。

撰文 | 司宏伟

超级计算机(Supercomputer),又称巨型计算机,是指在一定的生产工艺条件下,采用最先进技术、工艺设计生产出来的功能最强、运算速度最快、存储容量最大、档次最高、面向科学与工程的电子计算机系统。超级计算机通常由成千上万个处理器(机)组成,具有巨大的数值计算能力和数据处理能力,能计算普通个人计算机和服务器不能完成的大型复杂课题。工业界的普遍标准认为,浮点运算速度为每秒1亿次以上的数字式电子计算机才是超级计算机。超级计算机一向被称为国之重器,是世界各国竞相角逐的科技制高点,也是一个国家科技实力的重要标志之一。

中国第一台超级计算机是国防科学技术大学于1983年12月研制成功的“银河-I”,这台计算机在国防建设和国民经济发展中发挥了重要作用,中国也成为世界上少数几个能够研制超级计算机的国家之一。此后我国在超级计算机研制方面捷报频传,如国防科大、国家并行计算中心、中科院计算所、联想集团等单位相继推出了“银河”“神威”“曙光”“深腾”等一系列国产超级计算机系统;2010年11月,中国千万亿次超级计算机“天河一号”在世界超级计算机五百强排行榜(TOP500)上首次问鼎冠军,2013—2018年,中国“天河二号”和“神威·太湖之光”超级计算机连续排位第一名,实现世界超算“十连冠”。

40多年来,中国超级计算机研制从“零的突破”到“世界之巅”,集中地反映了这一国家大型科学工程项目着眼国家战略需求,坚持走中国特色自主创新之路的科研历程。不仅满足了中国尖端技术研究的急需,支援了国民经济建设,也积累了一整套研发高性能计算机的经验,使中国人在掌握计算机科学技术上向前跨越了一大步,成果和效用自不待言。但是,中国超级计算机研制历程的背后,一些发展中的问题还没有被足够重视,一些研究的不足还需要关注和探讨。特别是2018—2020年,美国“顶点”(Summit)和日本“富岳”(Fugaku)等超级计算机先后超越中国的“神威·太湖之光”成为世界最快超级计算机,而中国的新一代超级计算机迟迟未能推出。

因此,中国超级计算机到今天有必要进行自我总结,对其面临的深层次问题进行一些反思,以期在全球高端科技、尤其是高性能计算机研发领域竞争异常激烈的今天,实现创新驱动发展,为决策者及研究同行提供现实参考。

01 自主创新路向何方

“创新”在科技类文章中是一个常用词,大量文献中使用对“创新”概念的阐述均来源于20世纪初美籍奥地利经济学家约瑟夫·熊彼特(J. A. Joseph Alois Schumpeter,1883-1950),他在《经济发展理论》一书中对创新进行了系统的理论研究。熊彼特的研究虽然具有普适性,但严格意义上讲,他对“创新”的阐释主要还是针对经济领域和社会生产领域,而并非科学技术领域。20世纪90年代,中国学界开始主动借鉴西方创新理论研究,并结合自身特点和实践历程对有关理论进行完善。进入21世纪,中国《国家中长期科学和技术发展规划纲要(2006—2020年)》中,对自主创新的定义是“通过拥有自主知识产权的独特的核心技术以及在此基础上实现新产品的价值的过程”,主要包括原始创新、集成创新和引进消化吸收再创新三种形式。原始创新指前所未有的科学发现、技术发明、原理性主导技术等创新成果;集成创新指通过对各种现有技术的有效集成,形成有市场竞争力的产品或者新兴产业;引进消化吸收再创新是指在引进国外先进技术的基础上,学习、分析、借鉴,进行再创新,形成具有自主知识产权的新技术。

由于国外技术封锁和国内技术落后的原因,中国首台超级计算机银河-I在研制之初,就确定了“走一条自力更生、学习与独创相结合,起点跟得上当时国际水平的新路子”。银河-I是以美国第一台可持续性能达到每秒1亿次以上速度的向量超级计算机Cray-1为范本研制的,它在总体方案上瞄准Cray-1,借鉴其成功的设计思想;同时对当时国内没有或是不能保证质量的核心元器件,设法从外国引进。因此,银河-I并不是完全自主创新的成果,而是小部分原始创新和大部分集成创新结合的产物。例如,对于无法洞悉Cary-1究竟如何实现亿次计算,银河-I研制人员通过原始创新,突破了双向量阵列体系结构、改进浮点倒数近似迭代算法、指令链接与流水控制、素数模双总线交叉访问的存储控制等关键技术。而银河-I的整体工程实现,是通过大规模综合集成创新完成的。事实证明,当时这样做既为整个工程争取了时间,节约了研制经费,又保证了银河-I系统性能的高水平。20世纪七八十年代,中国与西方发达国家存在较大技术差距,银河-I研制利用改革开放条件,走原始创新和集成创新相结合的路子有较强的现实意义。此后采用同样模式又相继诞生了银河-Ⅱ、银河-Ⅲ等系列超级计算机。同时,机制更为灵活的中国科学院计算机技术研究所、联想集团等单位和企业,采用“引进-消化-吸收-再创新”的方式,研发成功“曙光-1”“深腾-1800”等系列超级计算机,完成了从大规模并行体系结构的实现,到可扩展共享存储并行体系结构的跨越。

但是,中国超级计算机的自主创新之路并不平坦。2010年11月,当“天河一号”成为世界最快的超级计算机,其核心部件90%以上却依然采用了美国英特尔公司和AMD公司最先进的CPU(中央处理器)和GPU(图形加速器)。连续六次登顶世界超级计算机500强之首的“天河二号”,其硬件系统主要部件的计算阵列全部采用美国商用微处理器。2010年曾排名世界第二的中国“曙光星云”超级计算机,核心部件全部是由国外英特尔和英伟达芯片构建的。在中国已成为世界第二大经济体的今天,国产超级计算机系统核心部件仍大量使用国外进口芯片就不免受到公众的质疑。事实上,以集成创新为主的模式最终只能仿制别人、依靠别人,引进消化吸收再创新的模式最后会落入“落后-引进-再落后-再引进”的陷阱。2015年,美国政府禁止了英特尔等企业向中国出口超级计算机有关的设施与技术;2018年,美国商务部又签署了禁购令,要求所有美国公司不得向中国企业出口包括芯片、软件、操作系统等商品。这对从事中国超级计算机研制的一些单位产生了不利影响,使已经运行的某型超级计算机系统未能继续升级,甚至导致某项百亿亿次级计算系统研制进度一再推迟。

但是,无论任何时候,最核心、最关键的技术是买不来的,只能靠我国自己研发。“神威·太湖之光”使用自主研制的国产CPU作为核心部件,开始探索“完全原始创新”研发模式。它是世界上首台运行速度超过十亿亿次的超级计算机,也是中国第一台全部采用国产处理器构建的超级计算机。然而,“神威·太湖之光”使用的国产“申威26010”众核处理器与当今国际最先进的芯片相比,仍然有不小差距。著名超级计算机专家、中国科学院院士周兴铭坦言,“目前国内制造的CPU从整体上来看性能低、功耗高,物理设计比国外差一代以上,工艺差两代以上”。

过去40多年,国家在超级计算机芯片技术原始创新等方面的研究和投入都远远不足,依靠引进和集成去追求“世界第一”并不是长久之计,中国超级计算机自主创新任重道远。

02 “重硬轻软”历史顽疾

20世纪中后期,中国计算机行业普遍对软件的重要性认识不足,一直存在重视硬件、轻视软件的现象,软件水平与西方国家差距很大。1978年银河-I研制初始,为了解决好这个问题,科研人员决定把主机与软件共同列为主攻方向,并立即启动软件开发工作,总设计师慈云桂还亲自兼任软件总体组的组长。但是,由于国际上计算机软件系统迅猛发展和国内软件技术力量薄弱的现实,直到1983年银河-I研制完成,其包括汇编器、编译程序、操作系统在内的软件系统仅仅才做到与Cray-1兼容。同时,银河-I在软件方面的缺点还有不少:并行算法和并行程序设计的研究不够;局部网系统研究与建设还没有及时跟上;绘图软件没有同步开发,以致未能满足部分大型用户上机的急需;与用户结合的科学库、数据库和专用程序包少,导致某些用户单位本身应用程序在银河-I上的向量计算效率存在困难,等等。

时至今日,大到国与国之间的竞争,小到重点项目的完成,越来越离不开拥有强大计算能力的超级计算机,中国的超算遇到难得的发展好时机,但“重硬轻软”的问题还没有得到根本性的改变。与微处理器芯片等硬件相比,中国与西方强国在软件系统上的差距更大。例如“天河一号”“天河二号”超级计算机安装的国产“麒麟”操作系统,目前都还没有形成大规模的软件开发与使用生态链。

要用好超级计算机,必须在每个专业学科领域——工业、流体力学、结构仿真、生命科学等,都开发出专门的应用软件。超级计算机应用软件是具体的体现,应用问题不同,与之相应的应用软件则也不同。应用软件的开发、研制和验证是一个系统工程,应用问题越复杂,应用软件的开发研制越困难、研制周期越长。而在中国,这类软件的自主研发能力极其有限,应用软件的发展落后于计算机系统的发展成为不争事实。软件在超级计算机应用发展中处于关键性地位,应用软件的滞后也严重影响了中国超级计算机的实际使用。

发展滞后的原因与中国在超级计算机领域的发展政策与路径有关。西方发达国家超级计算机的发展,是因为需要解决某些具体应用需求难点而在计算层面进行创新,从而带动系统硬件不断升级——这一过程是先“软”后“硬”,或者“软”“硬”同步。中国发展超级计算机始终是硬件优先、软件随后,其结果是尽管计算速度上去了,机器上运行的应用软件自主研发跟不上,大多仍使用国外现成的。一旦国外限制对中国出口高端、关键领域的应用软件,就会进一步造成国产超级计算机相关应用的缺失。

超级计算机应用软件作为战略科技创新基本工具,直接服务于国家重大科技项目,专业性和多学科交叉性非常强,切实需要国家在政策层面上“软”“硬”并重,实施长期的规划、稳定的经费支持和重点专项投资。

03 应用能力始终不足

超级计算机从诞生之日起就有明确的应用目的。1976年美国超级计算机Cray-1一经问世,首先被美国军方用于研制增强安全性能的战略核弹头。该机连续生产的16台和后续系列机型,始终应用于美国“核霸权”战略需求。美国超级计算机的建设方一般都是使用方,先有计算量需求,根据所需计算量设计系统,再根据需求设计超级计算机。中国则不同,是先进行建设,尽力提高建能,再尝试满足更高的计算需求。

银河-I研制,某种程度上说是为了首先“打破西方技术封锁”的政治需要,象征意义大于现实意义。银河-I一共只生产了3台,一台在河北涿县石油部物探局研究院作为“银河地震数据处理系统”主机,一台在四川绵阳作为西南计算中心主机,一台留在湖南长沙国防科大计算机研究所作为业务主机。银河-I研制成功后,由于没有持续的新应用需求,研制单位一直等待了5年,才使后续十亿次超级计算机银河-Ⅱ批准立项。在计算机科学技术飞速发展的年代,5年时间消耗十分残酷。20世纪末,在超级计算机技术支持下,美国、日本等国的汽车、飞机、航天、电影等一大批产业发展很快,超级计算应用已经与经济发展实现了融合。而在同一历史时期,中国超级计算机应用还仅局限于气象、航天等专业领域,应用的瓶颈不仅导致了超级计算机资源无法充分应用到社会、科研及生产之中,同时也限制了国产超级计算机自身的发展。

进入新世纪,超级计算机开始作为一种公共设施面向社会提供应用服务,美国、德国、法国、英国、日本等发达国家相继开始建设国家级的超级计算中心。超算中心成为基于数值模拟进行研发创新的主要平台和一个国家或地区科技竞争力的主要标志之一。2000年,中国成立了首家超算中心——上海超级计算中心。截至目前,中国已有国家超级计算天津中心、济南中心、长沙中心、深圳中心、广州中心、无锡中心等6个国家级超算中心,以及上海、成都、合肥等区域性超算中心。这些超算中心的应用状况如何?曾有媒体公开报道,安装有“天河一号”超级计算机的国家超算长沙中心自2010年11月开始筹建,2013年9月“天河一号”主机设备安装到位后一直封存,并没有正式运营,直到2014年6月才启动测试,闲置了将近一年时间。而“天河二号”所在的国家超算广州中心2014年落户以来,嫁接国家重大领域的科研项目较少,应用软件开发的周期过长,技术支撑尚未形成系统。2015年该中心的利用率仅为60%;用户占比上,83%是政府机关、高校、科研院所,企业用户只有17%,存在严重的“业务荒”。

一边在努力提升科技创新能力,另一边却让世界最先进的超级计算机闲置——这就是当前中国超级计算机应用的尴尬境地。其实,应用比研发更难。如何让超级计算机的应用对接高等院校、科研院所,特别是工业企业,新业态中小企业,服务社会经济,助力战略新兴产业,带动科技创新发展,是必须要认真思考的问题。只有大力推动普及化应用,应用需求与产业化规模得到有效提升,中国超级计算机才能真正做大做强。

04 能耗过高饱受诟病

在超级计算机发展的所有挑战中,能耗是最严峻的问题之一。能耗问题与超级计算机的体系结构、工艺水平和制冷技术等密切相关。由于超级计算机系统规模越来越大,体系结构和工艺水平对于降低功耗影响有限,机器的散热制冷变得日益重要。美国Cray-1的功耗非常大,本身达到115千瓦。为防止其因高温而发生熔断,研制者为它设计了一个大功率氟利昂液态制冷设备用于散热,这更增加了耗能。银河-I研制初期,技术上达不到采用液态制冷降低耗能,而改用传统的风冷系统实现散热,全机能耗达到25千瓦,是20世纪80年代国内能耗最大的计算机。

随着超级计算机的不断升级,大规模并行计算系统需要花费更多能量,其能源消耗呈逐年增长趋势。能耗也成了与计算速度同等重要的度量指标,国际业界科学家从2007年起发起与TOP500同步的Green500排行榜作为国际超级计算机能耗水平的权威评价。美国2012年10月和2018年6月排名世界最快超级计算机的“泰坦”“顶点”都是相对能耗较低的机器,其制冷技术也发展到了更先进的浸入式液冷模式。

“神威·太湖之光”和“天河二号”超级计算机使用大规模通风散热结合水力空调系统用于制冷,总体上不利于降低能耗。“神威·太湖之光”一年的用电量达到15兆瓦,相当于3个清华大学的用电量。“天河二号”能耗高达24兆瓦,是“天河一号”的6倍,问世后即成为当时世界超级计算机中功耗最大的机器。“天河二号”年耗电量约为2亿度,一年仅电费就要1亿元人民币,全速运算的话,电费更高达1.5亿。此外,为了应对全机散热系统本身因为高负荷产生的高温,广州市政府在超算中心3公里外专门为“天河二号”建设了一个冷水厂,每天不间断运送8摄氏度的水为散热系统降温,这又增加了相当多的能源消耗,一度引起国内舆论批评。民众甚至调侃,未来可以把超级计算机建到核电站旁边。从现实角度考虑,为超级计算机配套一个核电站是不可能的,但如果按现有条件发展,中国下一代超级计算机系统的电力消耗可能将会大到无法接受。测算表明,若以目前传统技术方法构建一台运算速度达每秒百亿亿次以上的超级计算机,能耗将会超过三峡水库发电量的1/3。

当前国际上已经改变单纯用计算性能排名的办法,开始以能耗性能比等其他要素进行超级计算机的排名。国产超级计算机发展也应该面向实际,在系统功耗、系统实用效率、系统稳定性以及整体成本上统筹考虑,做出整体能效高、用户欢迎的机器,而不是不计成本地、片面地追求计算速度。要是不能很好解决高居不下的能耗问题,即使中国研发出速度再快的超级计算机,它的实用价值和存在意义在全球范围内也会变得非常小。

05 超算人才仍是短板

超级计算机研制、运行、发展,最终还是要靠人才支撑。中国的超级计算机人才瓶颈问题始终解决的不好。

第一,对超算人才的健康保障不够。研发中国首台超级计算机银河-I是当时的国防重大科研任务,研制方过于强调采取“作战式”“命令式”的做法来加快推进工程进度,开誓师大会、写请战书、立军令状、封闭攻关,一系列高压紧张的工作方式,对科研人员的身心健康产生了很大影响。银河-I总设计师兼总指挥慈云桂,繁重的研制任务严重损耗了他的身体和精力,1983年银河-I研制成功后就退居二线,不久就因积劳成疾不幸病逝。还有一些中青年科研骨干,在银河-I研制期间就英年早逝,例如钟士熙教授49岁、蹇贤福副教授43岁、王育民副研究员41岁、张树生讲师40岁、俞午龙助理研究员35岁,等等。有人做过统计,在岗牺牲的科研人员数量足够组织起另一支银河-I研制队伍。直到十年后1993年银河-Ⅱ研制成功,研制方开始逐渐开始关注对科研人员的身心健康保障问题。

第二,对超算人才的奖励激励不够。对人才的奖励激励无外乎就是精神方面或者物质方面。1983年银河-I研制成功曾获特等国防科技成果奖,由于历史条件所限,只有8人能够因此荣获个人二等功,国家颁发给主要完成者的最高奖金也不过400元。而到了2009年“天河一号”研制成功时,这支数百人的科研团队却仅有十几人可以在项目成果奖上挂名奖励。而“天河二号”研制经费已高达10亿元以上,却不能给参研人员发1分钱的物质奖励。奖励激励不足,加上体制机制改革,导致近年来“天河”超级计算机研发团队有多名副总设计师、一大批主任设计师级别的科研人员纷纷转业、调岗、退役、离职,造成人才不断流失。

第三,对超算人才的培养不够。超级计算机已成为世界各国科技创新基础设施的大背景下,未来竞争着力点已由单纯的超算峰值性能竞争逐渐转向关注超算普及以及高水平人才培养。美国现有超级计算机高级专业人才已经超过1万人,而在中国,超算方面的人才奇缺。深圳、广州等超级计算中心给高级技术人员开出的条件是年薪100万元,即使这样的高薪待遇都往往一才难求。此前,从本科起就专门针对超级计算机培养人才的国内大学只有清华大学和国防科技大学。对于中国缺乏超算人才、更缺乏超级计算机与多学科交叉复合型人才的现状,这样的培养规模显然不够。中国半导体行业协会集成电路设计分会理事长、清华大学微电子研究所原所长魏少军在谈到超算人才培养问题时,曾忧心忡忡地说:“这几年,我们在(超算)人才培养上遇到一个不大不小的麻烦,就是很多的学生毕业以后去搞投资,搞金融了,当然我自己的学生也有出去作投资的,去做官员的……这个情况还没有缓解,所以我们人才团队的短缺是非常可怕的。”

机器不是原创的驱动力,只是实现原创的工具,人才才是推动科技进步最根本的源泉。超级计算机研制专门人才的培养和积累难以在一朝一夕完成,不仅是目前,乃至今后相当长的一段时间内依然是行业性的难题,中国在这方面亟待改善。

作者简介:司宏伟,1982年生,内蒙古呼和浩特人,理学博士,清华大学人文学院科学史系博士后。

本文经授权转载自微信公众号“国科大科技史与科学文化”,原标题为《中国超级计算机研制反思——从第一台国产超级计算机“银河-I”说起》,刊载于《科学文化评论》第18卷 第1期。

反对 0
举报 0
收藏 0
打赏 0