孙 凝 晖
屈指算来,计算所研制计算机系统已经有47个年头了。现在,又到了我们进行“选择”的关键时间点。回顾历史有助于我们借鉴当年,分析现在看看我们的起点,深思未来使我们能继续开创辉煌。
1 1956-1990年的简单回顾
计算所成立于1956年,是新中国的第一个有关计算技术的研究所,人们称之为“中国计算机事业的摇篮”。下面1956年赴苏联考察团与苏联计算技术与精密机械所专家的合影,标志着新中国计算机事业的开始。计算所研制计算机系统的第一个阶段是以仿制苏联的计算机为主,分别于1958年8月研制成中国第一台小型通用数字电子计算机“103机”,1959年9月研制成中国第一台大型通用数字电子计算机“104机”。 考察苏联 (1956) 103机(1958) 104机 (1959) 随着中苏关系的恶化, 计算所进入研制计算机系统的第二个阶段,即自行研制为主,一切为了国家利益服务。此后分别经历了电子管、晶体管、小规模集成电路、中规模集成电路和向量机阶段等计算机发展的各个时代。计算所于1960年4月研制成中国第一台自行设计的小型通用数字电子计算机“107机”,1964年4月研制成中国第一台自行设计的大型通用数字电子计算机“119机”。
107机 (1960) 119机(1964) 1965年6月计算所研制成中国第一台晶体管大型通用数字电子计算机“109乙机”,开始了晶体管时代。1968年12月研制成晶体管大型通用数字电子计算机“109丙机”。尽管这台系统的计算速度只有100KFlops,即每秒10万次浮点运算,比我们35年后推出的“曙光4000A”慢了整整1亿倍,她却被称为“功勋机”,为国家“两弹一星”事业做出重要贡献,是计算所永远的骄傲。
109乙机(1965) 109丙机(1968) 计算所于1970年研制成中国第一批小规模集成电路通用数字电子计算机“111机”,1976年11月研制成大型通用集成电路通用数字电子计算机“013机”。这些系统都是在“文化大革命”的大环境下完成的,使我们没有被世界上集成电路技术的发展拉得太远,但与“文革”以前相比我们在计算机系统的研制上与世界水平的差距被拉大了。 111机(1970) 013机(1976) 计算所于1983年11月年研制成中规模集成电路大型向量数字电子计算机“757机”。这是我们在第二个阶段推出的最后一个系统。与其同时代的是CRAY-1,银河一号这些重要的计算机系统。“757机”的研制使我们进入了向量机时代。 757机(1983) 进入二十世纪八十年代以后,改革开放使计算所也滚入市场经济的大潮。同时中国政府、企业、学校需要的计算机系统已经可以从国外采购,国家研究所失去了在历史上作为国家计算设备唯一来源的地位。在这个刚刚开始从计划经济向市场经济过渡的时代,计算所凭惯性研制出若干重要的计算机系统,对国家依然做出了不同的贡献。计算所于1987年研制成联想式汉字微型机系统“LX-PC”,开创了联想公司的PC大业;1991年11月研制成大型计算机系统“KJ8920机”,这是专为石油领域研制的计算机系统,体现了与行业结合的技术路线;1991年研制成并行计算机“BJ01机”,这是我们第一台基于微处理器的并行处理体系结构的系统,开创了并行处理时代。
LX-PC(1987) KJ8920机(1991) BJ01机(1991) 2 曙光高性能计算机的历史总结
智能中心从1990年5月 成立以来,在863高技术计划和中科院知识创新工程的支持下,致力于高性能计算机的研究和产业化(商品化)。我们的技术路线经历了两个“S”曲线。第一个“S”曲线(1990-1995)是从KJ8920为代表的向量机发展到以曙光一号,曙光1000为代表的SMP(Symmetrical Multiprocessor)/MPP(Massive Parallel Processing)系统,最主要的改变是计算部件由分离器件变成微处理器;第二个“S”曲线(1996-2005)是从曙光2000、曙光3000为代表的Cluster系统发展到以曙光4000、曙光5000为代表的网格计算机,最主要的改变是从以计算能力为核心变成以高效能为核心。 曙光一号(1993) 曙光1000(1995) 智能中心于1993年研制成对称多处理器(SMP)体系结构的计算机系统“曙光一号”,并以此为基础开创了曙光机的产业化道路。其中,有一句口号,也是主要的技术路线是“Micro is Powerful!”,即以微处理器为核心研制高性能的计算机系统。从历史的角度评价这个时期智能中心面临的主要技术挑战和做出的贡献是:
以工业标准和二进制兼容为系统的设计原则 主板反向设计和功能扫描 VME总线的中断控制器设计
BIOS(Basic Input Output System)设计 类Unix多线程操作系统的移植
智能中心于1995年5月研制成MPP体系结构的计算机系统“曙光1000”。其主要的技术路线常被比喻成“Ant-Array >> Elephant!”(蚂蚁结阵胜过大象),即以大规模并行处理技术取代单独地提高单个处理部件的性能。从历史的角度评价这个时期智能中心面临的主要技术挑战和做出的贡献是:
以“蛀孔寻径”(Worm-hole Routing)芯片为核心实现MPP系统 消息传递协议的设计 微核心操作系统的移植
并行文件系统的设计 类Unix的用户使用环境 曙光2000-I(1998) 曙光2000-II(1999) 曙光3000(2001) 智能中心于1998年研制成机群(Cluster)体系结构的计算机系统“曙光2000-I”。一个主要的动机和技术路线是“Ride Moore’s Law!”(搭乘摩尔定律快车),即高性能计算机的主要部件采用商品化部件(volume commodity),将超级计算机转变成超级服务器,使我们的技术有了产业化的可能。非常庆幸我们在1996年春季做出的这个技术路线抉择,使中国的企业和用户能够在今天享受到国产高性能计算机(HPC)的种种好处,使我们能够如此接近地靠上世界先进水平。这一影响还将持续下去。从历史的角度评价这个时期智能中心面临的主要技术挑战和做出的贡献是:
在没有操作系统源码的限制下进行创新的技术路线 机群交换机和网络接口卡 用户空间通信协议的设计 机群文件系统 机群操作系统
智能中心于1999年研制成后续的超级服务器系统“曙光2000-II”。它是一个SMP Cluster体系结构的机群系统,能够对未来有影响的主要技术挑战是:SMP上驱动程序的设计和硬件管理系统。从这个项目开始,曙光公司在系统研制过程中就介入到科研中,使科研成果的转化和产业化有了保证。
智能中心于2001年2月研制成超级服务器系统“曙光3000”。主要的技术路线是“It’s SUMA”,即将我们技术创新的重点放在Scalability, Usability, Manageability, Availability上面,并使其成为曙光公司的产品标记(Logo)和企业标准。从产业和应用效果的角度衡量,它是我们目前为止最成功的系统,商品化程度也最高。从历史的角度评价这个时期智能中心面临的主要技术挑战和做出的贡献是:
提供了相对完整的Cluster技术和若干SUMA部件 产生得以流行的产品,如内臵控制台(inside console),机群管理软件(cluster
management),硬件监视器(hardware monitor),高可用软件(HA software) 技术与应用充分结合,推动了国产HPC产业的形成
3 智能中心在研系统介绍
智能中心在2001-2004年的工作主要是研制曙光4000系列高性能计算机,包括L, A, H三台。在技术上,我们处于承上启下的时期。系统的体系结构依然是Cluster。一方面按惯性发展,解决机群系统的一些不足,解决新应用提出的一些新问题;另一方面试图有所突破,对未来的技术进行探索,包括网格零件,高效能系统技术,应用加速技术等。
这是一段对高性能计算机研究者来说相当困难的时期。企业获得的标准化的技术是如此地逼近学术界,一面是市场的红火,一面是研究人员在苦苦寻找新的需求和创新方
向。高性能计算机的技术发展在某种程度上处于停滞状态,高性能计算机的研究处于十字路口。 曙光4000-L(2003) 智能中心于2003年3月研制成面向Internet数据处理的Linux机群系统“曙光4000-L”。它是一台具有每秒3万亿次浮点峰值运算速度,100万亿字节数据存储容量,能够支持在线扩展的应用专用系统。在2004年将扩展到10万亿次以上的计算能力。研究工作还将一直持续,由计算所、曙光公司、国防科大、哈工大合作完成。主要的技术路线是“Data Intensive!”,即解决数据密集问题。系统的体系结构是成熟的。技术难点主要体现在为国家战略应用服务的特定技术(specific technique)上。
主要技术挑战是: 100TB数据集
接收32Gbps实时Internet流的系统设计
定制的Ethernet TOE千兆网卡和用户空间驱动 TCP/IP协议快速分析算法 机群数据库中间件
Internet负载发生器和定制的“ServerScope”服务器性能测试仪 管理
海量硬件部件的监视技术 (大于1344个硬盘,3342个风扇) 海量数据的逻辑视角(logical view)
基于角色的管理策略和定制的专用智能控制台 在线扩展设计
10Tflops
1200A,160KW
1300 CPUs,2000GB MEM,200TB Storage 高可用设计
冗余供电设计 互联网络冗余设计 存储系统冗余设计 机群高可用软件
数据备份和远程备份设计
曙光4000-A(2004) 智能中心将于2004年6月研制成面向网格的高性能计算机“曙光4000-A”。它是一台具有每秒10万亿次浮点峰值运算速度,能够支持32/64位计算和网格计算环境的系统。主要的技术路线是“Grid-enabling”(支持网格)。主要技术挑战体现在下面4个方面10项。
战略贡献(Strategy)
作为国立研究所,我们在做出重要的设计决定时,必须考虑能否使国家在整体上受益。
1. 突破10万亿次计算(10Tflops capability):使中国成为除美国、日本外,第三个能
制造10万亿次商品化高性能计算机的国家;使中国计算机产业生产、销售、维护高性能计算机的能力达到世界先进水平;在2004年能够为我国科研、教育、政府、国防、安全、工业界批量提供商品化的万亿次到20万亿次能力的高性能计算装备。 2. 普及64位计算(64-bit computing):采用AMD Opteron 64位处理器,通过与AMD
的战略合作普及64位计算,使中国用户能更早地、更廉价地、更容易地得到64位计算能力;同时引入充分竞争,为中国用户带来更多的技术选择,更大的价格利益,并从国家利益的高度有利于改善中国计算机产业的格局。 “工业标准机群”的核心技术(Industry Standard Cluster)
工业标准机群采用工业化量产的部件构造高性能计算机,从而降低成本,便于广泛使用,使高性能计算机的门槛大大降低。我们对其中最重要的核心技术进行研究,掌握自主知识产权。
3. 自有高速互连网络和通信协议:研制具有自主知识产权的5Gbps高速互连网络和
通信协议。这是机群系统的最核心部分,是必需掌握的技术。
4. 可扩展机群文件系统:能够支持海量数据处理的可扩展文件系统是机群系统中的难
度最大的系统软件,尚没有完善的成为标准的商品化软件。
5. 机群操作系统核心:这在机群系统软件中尚属空白,对在机群系统上开发各种系统
软件和商业应用具有很大帮助。
“大规模机群计算”的关键技术(Massively Cluster Computing)
机群体系结构的高性能计算机具有固有的好处和缺点,我们通过MCC体系结构的研究和技术开发,提高系统的可扩展性,可管理性,和系统效能。
6. 自有4路SMP的主板设计:具有自主知识产权的高密度主板和2U4路64位CPU
机架服务器,使我们能在50平米内聚集10万亿次计算能力和250千瓦的散热量,提高了机群系统的可扩展性。
7. 大规模机群的集成式管理网络:集成了主板管理、硬件监控、KVM切换、系统电
源控制等大规模机群的管理功能,提高了系统的可管理性,管理员不需走近主机。
8. 操作系统动态部署和轻载技术(light-weight):通过支持32/64位计算,Cluster/MPP
计算,交互式/协同计算,服务器聚集计算,Wintel(微软英特尔)模式,等多种计
算模式,使系统服务用户多种需求的能力大为提高。
9. 提高系统效能(productivity)的技术:多调度策略作业管理、智能文件浏览器和自治
管理器,通过多种作业调度策略、海量文件管理、系统自动修复等技术提高系统为用户服务的产出能力。 面向网格(Grid)
作为中国国家网格(CNGrid)的主机,要在网格环境下为大量用户提供多种服务,通过研制多种网格零件,使高性能计算机具有网格使能的特性。
10. 开发网格零件(Grid-enabling components):包括网格路由器,网格钥匙,网格网
关,网格监控中心,网格文件访问,织女星网格操作系统。
智能中心将于2004年12月研制成面向生物信息处理的应用专用系统“曙光4000-H”。它是一台具有每秒5000亿次通用计算能力和每秒4万亿次专用计算能力,支持生物应用的系统。研究动机是:生物信息的数据量的增长超过Moore’s Law 的速度,而通用计算机系统的处理效率却是很低的,因此要试图使算法在硬件层次实现并且可变。主要的技术路线是“Reconfigurable Computing”(可重构计算)。主要技术挑战体现在:
可重构计算体系结构 算法硬件加速方法
生物信息处理的创新算法的开发
生物应用软件的开发,使用户使用生物领域的界面,使系统“仪器化”。
4 高性能计算机研究和产业现状
二十世纪八、九十年代是高性能计算机丰富多彩的时期,各种体系结构的系统争奇斗妍。进入二十一世纪,高性能计算机产业逐渐成熟,用户面大大扩大,技术也不断聚焦。工业界认为,现在主流体系结构收缩成三种,即SMP, CC-NUMA, Cluster。其他如MPP, Vector, Mainframe 虽有存在的价值,但不具有商业的活力。在产品上,只有两类产品具有竞争力。一是高性能共享存储系统,如IBM690, SUN Enterprise15000, SGI Origin3800;二是工业标准机群,包括以IA(Intel architecture)架构标准服务器为节点的PC机群,和以RISC SMP标准服务器为节点的RISC机群。传统的超级计算机,在满足国家特定的应用需求上,依然存在它们的身影。这些系统的用户更关心性能而不十分在乎价格,如NEC SX6 Vector系统、Cray X1 MPP系统、IBM BlueGene-L MPP系统、定制节点的ASCI超节点机群系统。它们虽在产业中不能成为主流,但在技术上能成为HPC研究的驱动力,对产业有技术辐射作用。
对高性能计算机产业影响最大的就是“工业标准机群”了,反映了标准化(Standardization)在信息产业的巨大杀伤力。工业标准机群采用量产的标准化部件(volume commodity)构成高性能计算机系统,极大地提高了性能价格比,从科学计算开始逐渐应用到各个领域。其中,推动了这一趋势形成的三个核心技术是Intel Xeon处理器、Linux操作系统和Myrinet互连网络。今天,我们从下面这张列表中可以买到搭建系统所需要的一切。
CPU: Xeon/Opteron/Itanium Memory: SRAM/DDR
I/O: HyperTransport/PCI-X/PCI Express Storage: SCSI/FC/SATA/iSCSI
Network: Myrinet/Quadrics/Infiniband/G-Ethernet Boxing: Chassis/Cabinet/Cable
OS: Linux/GNU Compiler/Java/Luster Protocol: GM/VIA/Verb/MPI/PVM/uDAPL Library: MKL/ESSL/ACML/Scalapack/Gauss Management: CMS/PBS/LSF/Vampir
Application: Paradiam/LS-DYNA/Cerius/MM5/Blast/Oracle RAC Integration: LinuxNetworx/Scali
高性能计算机的产业现状对中国学术界的最大影响是“Are We Lost?”(我们是否迷失了?) 。其中we = 系统研究者。以前,工业界不能给国家、关键行业、科研教育合理地提供所需要的高性能计算设备,提供一台可用的“系统”是HPC研究的主要目的,就像为两弹一星,为石油勘探提供计算工具那样。这样的情景一直持续到不久的过去。“我们”突然发现在提供多少多少亿次系统的能力(capability)这一衡量标准上面,和研究生们,工程师们相差无几。在企业面前,“我们”也似乎失去了存在的价值。“我们”的研究结果将我们自己逼到了墙角。在世界范围,这种情况同样存在。从ISCA会议有关系统的文章逐年直线下降可以印证。
就工业标准机群而论,是否已经完善,再没新技术可供研究了呢?显然不是。这一技术路线只解决了方便廉价地组合系统这一问题,未解决的问题很多,下面将会阐述。现在的困惑是:以前是“三角形”技术路线,部件在下面,顶端是系统,用峰值或Linpack就能清楚地表述结果;现在是“放射状”技术路线,不同的技术解决不同应用的问题,多目标,将系统做为一个整体,缺乏新的衡量指标(尽管有 HPCS,尚停留在概念阶段),缺乏象龙芯-2 CPU研制提出的“ 500MHz@0.18u + SpecCPU2000=300”这样简洁的目标。拿一台系统和另一台系统相比,变得很难公平合理地衡量。从系统的整体这个角度,你看不出大学师生搭的系统和IBM销售给企业的系统之间的区别。说的软硬件部件都是同样的名词。不管你说什么,每个人都可以说“me too”。必须将系统的每个部分细节地进行比较,才能显出差别和优势。这些说明HPC研究在技术突破上处于停滞状态。
下面列出一些关于HPC研究的代表性观点。
美国DOE(能源部)认为,HPCS(High Productivity Computing System)是未来的研究方向,即高效能计算系统。计算机系统的效能或生产率不仅包括效率,还包括研制成本与时间、运行和维护成本、系统可靠性和稳定性,以用户能获得的效益衡量。HPCS研究计划列出的研究目标包括:
在关键的国家战略应用领域,将计算效率提高10-40倍; 降低研制、运行和维护万亿次以上计算机的费用;
缩小应用从单CPU计算移植到大型并行计算机上的难度;
提高系统的可靠性和稳定性的技术,如自动修复逻辑差错、忍受系统软
件故障、研究系统软件和硬件部件自愈的技术、过载时服务质量保证的技术、在不可信的计算机系统上开发可信应用的支撑技术。
美国NITRD(National IT R&D)委员会认为,当前HPC存在的主要问题是:
hard to use(难以使用)
Do “old science” well, not the new science(不适合新型应用)
Radical improvements in time-to-solution(需要大大降低研制时间) Capacity and capability inadequate(性能和容量依然不足)
美国NSF(国家科学基金会)认为,不同时期的高性能计算机解决当时的挑战性问
题。目前基于已有的商业部件和Cluster 体系结构构造高性能计算机存在巨大的隐患。Cluster 体系结构在400节点以上时带来的可靠性、可用性等问题影响了应用的效果。当前制造高性能计算机的主要障碍是Availability(可用性), Maintainability(可维护性), Evolutionary Growth(平滑扩展能力), Scalability (可裁剪性), Power Consumption(能耗)。面对高性能计算机不断扩大的应用领域的挑战 ,Caltech(加州理工大学)的Daniel A. Reed 指出: “随着新的高性价比部件出现,我们通过组装一些部件,很容易组装起来TeraFlops级系统。关键问题是怎样在这些组件之间找到一个平衡点,使得系统具有很高的可用性与高效性。不幸的是,在美国目前还没有积极的大规模体系结构和原型研究项目。简单地说,我们目前正面临着体系结构的危机,包括软件和硬件。”
国家并行计算机工程中心的陈佐宁院士认为,当前HPC研究的主要问题是:
实际应用的持续性能低 复杂性挑战 可靠性和可用性 功耗问题
应用的研究和开发滞后于高性能计算机系统的发展
当前在学术界和企业界正在进行的HPC研究很多,下面列举几个创新性的研究:
IBM BlueGene中的自愈合技术(Self-Healing)
Berkeley大学Patterson教授的Recovery Oriented Computing(ROC)
研究,试图以一种简单的现场可臵换的部件来简化系统修复;
PIM(Processor-In-Memory)/iRAM研究试图缩小memory和CPU 之间
的隔阂;
Sun 在HPCS计划中的“Hero”系统,其中Memory Sea技术通过芯
片之间的耦合解决芯片互连的性能问题,发明一种全新的编程模型(programming model) 试图解决HPC编程难的问题; 有关系统内部光互连的研究。
5 中国高性能计算机研究的未来
科研环境的改变
现在存在的一个问题是,高性能计算机研究的科研环境发生了变化,但科研方式并没有随之改变。以前,国家需要一台HPC,企业无法提供,许多重要部件都没有标准部件,这种情况下构成的系统可代表一切。科研方式以提供一台系统为主。我们在曙光3000研制时还创造出科研经费国家和用户各出一半的方式,使系统能及时地得到应用。但现在,HPC系统是相对成熟、充分竞争和开放的市场。基本部件是现成的,搭建一个标准系统较容易。这一点与CPU, OS截然不同。情况改变了,但我们的科研目标和方式没变。导致主要科研经费变成了一种设备采购补贴。现在,需要的是关键技术的创新研究和难点的解决,不能将高性能计算设备的采购需求(看重指标)和技术创新需求(看重技术突破)混合在一起要求。
我们在曙光4000A高性能计算机研究中,有一些遗憾和不足:
在一些设计决定上,不得不将科研目标和企业行为混合;
我们的创新技术尚没有标准可以衡量,Productivity或 SLA (Service
Level Agreement)都不成熟;
将大量的科研经费用在Linpack上,变成一种对用户采购机器的补贴。
如果我们不这样,就会失去在HPC研究上的生存权,这是很无奈而可悲的;
为了保住我们的饭碗,被迫在科研项目中与企业在产品级的技术层次
上、在产品销售行为上进行所谓竞争; 现行的科研体制不允许“未完成”。一些指标在2001年看是合理的,
在2003年却可以用市场上的工业成熟技术来满足。我们在科研目标上作了些调整,但也做了纯粹为完成“任务书”和“指标”而做的工作。
拨开Linpack迷雾
由于种种历史的和客观的原因,当前国内外高性能计算机研究中普遍存在过分强调
Linpack,甚至将其作为唯一指标的现象。我们认为这对高性能计算机的发展特别是在我国的发展弊大于利。
毫无疑问Linpack有着它的历史作用。在提高计算能力十分艰难,计算效率是发展瓶颈,体系结构百花齐放的年代,Linpack是评价系统、比较技术的很好的指标,作为目标也很简洁明了,投资者、研究者、用户、媒体都能明白。正因如此高性能计算机TOP500排名主要是按照Linpack。历史把Linpack推到了令世人瞩目的地位。然而正如国家并行计算机工程中心的陈佐宁院士所指出的:“TOP500采用的 Linpack标准以规则的计算密集型模型为背景,反映的是以CPU为核心的硬件系统性能。”
但历史发展到今天情况已经有了很大变化。首先业界企业和用户获得高Linpack指标变得相当容易,这一指标已不能反映各种系统的技术特色。例如美国Virginia大学的师生在4个月内搭出了2003年11月世界排名第三的系统,超过除Earth Simulator 和ASCI-Q以外的系统。这只能说明今天高Linpack指标已经不那末珍贵,而不能由此得出第四名以下的其他系统不如这台“大学超级计算机”的结论;再如Dell是全球Cluster HPC销售数量最多的企业,但业界认为这只不过说明称之为“Linpack Cluster”的高性能计算机已经成为平民化的产品,并不因此认为Dell是HPC技术的先锋甚至主力。
汪成为院士在2001年2月17日的一次演讲中说到:
“什么是“高性能计算--High Performance Computing ”的“性能”? High Throughput Computing High Reliable Computing High Reasoning Computing …….
(高性能)是很难衡量的、是随用户的需求而定的。但系统的时钟频率和每秒执行指令的数目是实现各类Computing 的基础,因此,是衡量各类“性能”、较易于测试的基准之一。Linpack是一切计算的基础。”
由此,只能说高性能要基于Linpack,但Linpack不能自然的保证用户所需的高性能。由于企业利益驱动,商家以Linpack去引导用户。这是一种基于成熟、相似技术的竞争,既不能实际地推动HPC技术的发展也无助于满足最终用户多彩多姿的实际需求。如果学术界,尤其是决策者也被如此误导,HPC研究将偏离正确方向造成人力、物力和机会的损失。但遗憾的是目前学术界还没有找到新的让学术界,用户,决策者都能理解接受的新标准。
科研分工问题
中国正在建立创新体系,在这个过程中各类科技队伍之间的关系和分工应当根据我国国情和市场经济的客观规律进行合理调整。在我国当前的具体条件下,不能因为企业做出了万亿次机,就认为企业有能力承担HPC重大创新的科研任务了,能像IBM承担ASCI计划,为核武器研究提供系统,SUN承担HPCS计划,进行体系结构的创新研究那样成为高性能计算机研发的主力。必须清醒地认识到我国企业经济实力还不够强大,对于无法在短期内通过实现量产获得利润的科技活动,企业难以长期给予充分支持。但
另一方面我们也不能回到科研和市场脱节,研究所、大学进行的高技术前沿探索无法帮助企业提高竞争能力的老体制。
科研机构、大学、企业要对不同的时期,不同的任务进行分析,探索对整个国家,对企业、研究所、大学都有利,都可发挥各自特长和优势的科研分工新格局。考虑到我国改革开放的成果和市场经济的发展,我们认为科研更合理的布局也许应当是:
国防部门:负责研制我国计算能力最高的系统,满足国防特殊要求。强调应
用目标驱动和应急任务驱动,重视提高工程能力;
企业:着重研发赢得市场竞争的产品,目标要瞄准市场需求相对广阔,有机
会形成量产,实现规模经济的系统。强调用户驱动和市场驱动,注意提高产品技术和工程技术; 科研机构:负责核心技术和方法的研究及原型系统的研制。强调应用需求驱
动和技术驱动;由于企业研发能力的提高,现在已不需要科研单位向企业提供完整的系统和全部的技术了,科研机构已经可以而且应当集中开发核心技术而不必通过出售产品盈利来维持生存。这就可以大大减轻科研单位的工程压力,避免科研单位与企业的竞争; 大学:负责基础性的学术研究,强调方法的创新和为关键技术的突破奠定基
础的理论探索。强调学术驱动。
在这种新格局里科研机构,大学,企业,用户将能更好地共同开创中国高性能计算机的未来。
如何选择中国的HPC科研方向
当前,在HPC研究领域提出的问题很多,尚未形成成熟的方向,与1990年相比差别很大,我们必须立足于自己创新。如何选择技术定位,如何选择创新技术,是很难的一件事。这里讨论的是我们在进行选择时的一些原则。
计算所作为国立研究所,在技术定位上有一些通用原则。
国家需求大:不可否认高技术的最终归宿是企业,但在中国当前的体制下,国立研究所首先要满足国家的需求,使政府受益,业内企业的需求不是第一目标;
技术远景好:应是成长期的技术,当前可能应用面窄,未来的影响范围大,
能够支持长期的研究;
难度大:企业难以完成,或技术本身不一定对产业有直接帮助,强调技术
辐射大于产品辐射,有点像星球大战计划,能带动了一批技术的发展; 例子:通用CPU,IPv6,信息关防,GridOS,数字编解码
曙光机技术定位的一些原则,也是在国家HPC研究布局中我们存在的理由:
要在体系结构的创新,研制系统的方法,掌握关键技术,促进产业发展的
贡献上领先,这应是我们的主要目标;
能对国家的目标有用,如影响国防领域的科研方向;
影响企业的技术方向,能对中国服务器企业的市场有帮助; 以量产(volume product)为最终目标,在未形成工业化量产之前掌握若干核
心技术;
要以部件技术为基础,技术的绝对超前不符合我们现实的能力,像SUN
的Memory Sea,改变编程模式,超出了我们目前的能力,不是我们的发展之路;
以前是解决“有”的问题,现在是解决“好”的问题,所以要以出技术为
主,不要求通过系统产品体现成果;
需要得到其他研究的支持:CPU的研究,可以在提速部件上进行创新;与应用结合,
满足重大应用的特殊需求,如网络安全,海量知识处理,生物信息;计算机自身的驱动力不足,需要新需求的驱动。
计算所未来HPC研究的重点
从2004年至2008年计算所高性能计算机的研究主要集中在MCC系统和网格计算机两个方面,重点在核心技术的突破。
MCC: Key Technology Achieving Peta Computing 千万亿次计算核心技术研究
MCC(Massively Cluster Computer)是我们构造出的一个单词,代表下一代机群系统的关键技术,是我们在“深”这个方向上的努力。主要出发点是MCC = MPP + Cluster,结合二者的优点,同时能面向未来的网格使用环境,即以下三者的融合:
保留Cluster的基本部件且改进固有缺陷(Cluster) 具有MPP的可扩展性和饱和性能(MPP) 满足网格环境下对计算机的要求(Grid) 另一个动机是:我们认为将Cluster简单地扩展达到PetaFlops的做法是不可取的,希望找到一种方法使工业标准机群的能力追上专有技术(specific technology) HPC(如ASCI系统)的曲线,达到PetaFlops以上的计算能力。工业标准技术和专有技术目前还是有差距的。
在系统上有4年差距
2004: 10Tflops (曙光4000A)
2000: 12.8Tflops (IBM ASCI White) 在技术上有5年差距
曙光4000:能以合理的方式达到20Tflops (工业标准机群) IBM ASCI Purple:100Tflops (专有技术) 智能中心在这一方向的科研目标的要点如下:
科研目标:建造有效能的可扩展高性能计算机系统,达到和超过一千万
亿次浮点运算能力,使用工业标准体系结构的部件,和特别设计的专有软硬件部件;
主要技术能辐射到工业标准的量产的产品;
限制条件:以千万亿次计算为技术目标,数万个CPU为规模,要有自
己的核心技术;
在中低端用商品化CPU(如AMD Opteron)和自己设计的主板,在高
端用龙芯CPU,与龙芯的研制结合(2010年龙芯-4预计达到160Gflops)
技术要点包括:密度和互连,可重构计算,工业标准机群技术改造,用户问题驱动,基础性研究五个方面。
密度和互连研究以有效的方式使机群系统达到MPP的CPU密度、可扩展性PetaFlops计算能力。
功耗与散热技术:功耗问题与高密度设计和冷却技术紧密相关,同时需
要CPU设计的配合和系统设计的创新,试图使千万亿次系统的平均运行功耗 < 1兆瓦。包括:
高密度工业主流主板的设计
在高密度和冷却技术上寻求突破,如水冷、风冷、传导相结合的新
型冷却技术;
研究省电和低噪音技术,减少运营成本。
互连网络:最大系统规模达数万个CPU的机群结构的互连网络技术和
工艺技术,象多级cache那样采用多层互连是我们提高效率的思路。包括:
消息/接入/存储/管理 四网合一的研究; 互连硬件设计:节点内互连芯片(Cell)、节点间互连芯片、主机或CPU
接口芯片、长线传输技术、可扩展交换机技术、互连网络管理和全局通信技术;
通信软件设计:支持多层(4层)互连的通信协议和通信软件、协议
offload技术。 新型光互连交换机
机群存储系统,包括节点独占和系统共享两种。
可重构计算研究是实现芯片级的计算加速,拉近应用与计算部件之间的距离的重要途径。最终的设想是在CPU里有一块可编程重构的部件,根据不同的应用,将预先定制的硬件逻辑加载上去,大大提高计算效率。
通用与专用之间的接口设计:PCI-X/HT接口 硬件逻辑可重构机制
加速算法硬库(VHDL library)
工业标准机群技术改造是针对工业标准机群的固有缺陷,未解决的问题,以及尚无标准的部分,进行技术增值。这方面的研究目标是:
机群操作系统核心(Clustone):目前这方面技术尚属空白,要通过研
发使其成为机群系统软件的公共平台和用户层商业应用的开发平台。 海量数据存取技术:这方面Luster软件尚未成为标准。要研究PB量级
海量文件数据的存储、I/O、和管理,在文件系统层支持全局共享,文件系统规模达到1PB;在存储设备层,研制可动态在线扩展的虚拟存储系统,
与规模相关的问题
大规模监控管理控制:研究对成千上万个CPU、内存、硬盘、风
扇、网络接口、操作系统映像、用户进行集中管理、监视、和控制的技术。
自治管理(AutoAdministrator):研究大规模系统的智能管理技术,
提高系统的可用性;
海量文件管理(SmartSpreader):研究海量文件的智能管理技术,
尤其是元数据和结构化数据的管理,给文件和数据在语法的基础上加上语义,支持数据密集型应用; 应用层作业管理系统
可信计算(Dependability Computing):经验表明,目前超过400个节
点的系统不能再被认为是可信系统,需要研制支持可信计算应用编程的工具,支持系统硬件部件、系统软件自愈的工具,以提高系统可靠性,使系统MTTF(Mean Time To Failure)>2000小时,MTBF<10分钟。 用户问题驱动是解决和应用领域相关的特定的技术问题,这符合现在的
“放射状”技术路线,也是能较快地、直接地为企业服务的地方。 Internet数据处理:专用接入卡,专用处理加速部件;
地震数据处理:解决NFS (Network File System)的可扩展的饱和性能
和稳定性问题;
商业应用:使只有二进制代码的商业应用能利用高性能网络的高性能
TCP/IP协议;
工业标准共性技术:主板创新设计等;
基础性研究是为高性能计算机长期发展服务的,以学术探讨为主。 基于光互连的可重构体系结构的研究,支持体系结构的自适应性; 计算机系统模拟器,是体系结构基础研究的工具; 高性能计算机的新型性能评价标准,如全生命周期性能,SUMA定量评
价, SLA评价标准,以及与应用领域相关的定制的评价标准。
Grid Computer: the Next Generation Server Technology 网格计算机核心技术的研究
网格计算机(Grid Computer)代表了我们在计算机系统的组织和部件技术的研究方向,是我们在“广”这个方向上的努力。研究动机是,网格的理念与特征是否可应用于计算机系统呢?即在网格环境下的计算机系统在部件和组织上应有所创新,如同网络改变了计算机系统一样(如NFS )。现有的IA架构服务器的技术被标准化了,大到每一个部件,小到机箱的尺寸,开槽的位臵,在网格的推动下,应有所突破。
智能中心在这一方向的科研目标的要点如下:
科研目标:研究在网格环境下的计算机系统的新的体系结构和组织方
法,产生新的计算机软件硬件零件。
支持具有即插即用和网格共享特点的网格零部件是研究重点;
无论是用商品化CPU还是龙芯,立足于自己设计主板和系统,突破现
在的工业标准的限制;
产业目标:产生桌边式的网格HPC,将HPC产业扩大10倍,将明天
的HPC市场变成今天的IA服务器这样广阔的市场;
限制条件:限制网格HPC为100万元人民币硬件成本,将系统尽可能
做好。
技术要点包括:网格计算机体系结构,标准化硬件部件,标准化系统软件部件,与HPC研究的结合,四个方面。
网格计算机体系结构研究在计算机系统层如何做到按需组装和自适应(adaptive),这是网格的本质需要,是按需计算(on-demand computing)在系统上的体现。我们已经提出了一种称之为Dagger(De-coupled Architecture with Grid-key and Grid Enabling Resource) 的网格计算机体系结构。主要动机如下:
De-coupled:资源重组
将系统重新拆分成可组合的网格部件和网格零件 提高资源使用效率、利用率、管理性是目的 Dynamic Deployment:动态部署
在三个层面提供网格使能的资源,支持即插即用的硬件;支持动态部署
的操作系统服务;支持协同的应用服务;
面向服务的应用、操作系统、硬件的功能动态组合 Dependable Security:可信安全
在客户端增加表明身份、基于角色的网格钥匙
这种网格计算机体系结构会带来如下好处:
标准化,可能产生取代服务器IA标准的新的标准
打破Moore’s law在计算能力(computing capability)外对CPU的要求
共享 动态组合
部件简单,提高可靠性,降低成本
虚拟集中,提高可维护性和操作方便,除硬件机械操作外,管理员不须接触服务器和客户端设备 适应网格环境
通过提出新的网格计算机体系结构,研制有别于现在的IA标准服务器的硬件部件和硬件零件,它们称之为网格部件和网格零件。我们提出了6个网格部件,2种网格计算机组成方法,若干网格零件:
网格处理器(Grid Processor) 网格存储(Grid Storage) 网格控制台(Grid Console) 网格交换机(Grid Switch) 网格路由器(Grid Router) 网格终端(Grid Terminal ) 内部网格(IntraGrid):在网格资源层的共享,连接多个服务域,成为
一台网格计算机; 外部网格(InterGrid):在网格应用层的共享,连接服务域和客户端,
提供应用服务;
标准化网格零件:网格南桥,网格显示器,网格USB,网格钥匙; 标准化系统软件部件研究在网格计算机体系结构下如何支持硬件部件
的按需组装和自适应,同时支持操作系统、操作系统服务、应用的可部署,支持网格计算机的虚拟化管理和除硬件机械操作外管理员不须接触服务器和客户端设备的管理目标。技术路线包括:
GridFirmware:在BIOS和操作系统之间增加一层软件,实现动态部署
硬件、操作系统、OS快照的功能;
GridOS:面向网格对操作系统功能进行重组,将操作系统的功能按位
臵、管理角色、使用角色重组后分布到多个网格部件上; GridDeploy:根据网格计算机配臵信息和当前应用动态部署操作系统模
块、操作系统服务、管理软件、应用,生成OS快照; 软件网格零件:将一些系统软件变成网格零件,如GridView, GridPanel,
GridIO, GridGateway分别是监控、服务器控制、I/O、通信软件的网格化。
与HPC研究的结合研究如何以100万元成本在一个机柜内提供具有廉
价、安静、省电、易管理、易使用、可靠、可信、安全特性的Tera量级的网格HPC服务器。我们设想与传统的性能驱动为主的HPC研究方式不同,先限制成本,再试图产生新的部件,最终为采用量产的高性能部件(volume commodity)构成高性能计算机系统的工业标准机群提供更好的部件。下面是一些目标要求:
廉价:大多数用户使用今天购买几台PC服务器的钱,就能购买一台高
性能计算机;
安静:嘈声与几台PC服务器相当; 省电:功耗与几台PC服务器相当;
易管理:系统连线简单,没有硬盘风扇等易坏部件,集成服务器管理单
元,南桥所带外设全部远程配臵,管理员除机械动作外(如换热插拔硬盘)不需要走近高性能计算机,为管理员提供管理的逻辑视图等; 易使用:对大多数用户,面对的是应用语义和应用领域视图;
可靠: CPU/DIMM(Dual In-Line Memory Module)基本单元能自愈,
使高性能计算机的MTTF、MTBF与大型SMP系统相当; 可信:具有支持可信计算的编程部件、管理部件;
安全:点到点数据安全, 具有用户端到端的安全,提供应用服务语义;
MCC和网格计算机各有自己的研究重点,也能够结合。我们现在的设想是,第一步通过2年时间研究核心技术,寻求突破性创新。因为有龙芯,可以自己设计主板,从CPU到OS都全部可以采用自有技术,突破现有的工业标准的限制。计划在2005年底推出一个基于“龙芯-2”的网格MCC机群的原型系统,验证MCC和网格计算机的一些关键技术。我们希望在2006年底推出曙光5000-G网格机群,在2008年底推出曙光5000-P千万亿次系统。
我们可能的贡献
我们将曙光机在2001-2008年的研究规划为围绕5台系统,它们有不同的重点:
曙光4000-L:专,L代表Linux,Internet信息处理专用系统;
曙光4000-A:快,A代表Advanced,10Tflops面向网格的高性能计算
机;
曙光4000-H:巧,H代表High-density,生物信息处理专用系统; 曙光5000-G:新,G代表Grid,网格高性能计算机;
曙光5000-P:省,P代表Petacomputing,千万亿次计算系统;
曙光机主要的贡献体现在高性能计算机体系结构上,下面是以前的贡献和对未来的设想:
SMP(1993年)
中断控制器和多线程操作系统 MPP(1995年)
WRC芯片和微核心操作系统 Cluster(2000年)
SUMA和机群操作系统 网格计算机(2005年)
网格控制台和网格路由器 MCC系统(2008年)
多层互连和可重构处理器
作者: 中科院计算技术研究所国家智能计算机研究开发中心主任、研究员、博导
图1. 织女星网格文档 VGN-4 日
2004年1月7
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务