HPC是高性能计算(High Performance Computing)机群的简称。指能够执行一般个人电脑无法处理的大资料量与高速运算的电脑,其基本组成组件与个人电脑的概念无太大差异,但规格与性能则强大许多。现有的超级计算机运算速度大都可以达到每秒一兆(万亿,非百万)次以上。“超级计算”(supercomputing)这名词第一次出现,是在1929年《纽约世界报》关于IBM为哥伦比亚大学建造大型报表基(tabulator)的报导。
高性能计算(High Performance Computing)机群,简称HPC机群。构建高性能计算系统的主要目的就是提高运算速度,要达到每秒万亿次级的计算速度,对系统的处理器、内存带宽、运算方式、系统I/O、存储等方面的要求都十分高,这其中的每一个环节都将直接影响到系统的运算速度。这类机群主要解决大规模科学问题的计算和海量数据的处理,如科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等等。信息服务机群的应用范围很广,包括如数据中心、电子政务、电子图书馆、大中型网站、网络游戏、金融电信服务、城域网/校园网、大型邮件系统、VOD、管理信息系统等等。就其实现方式上分,还可以分为负载均衡机群、高可用机群等。简单的说,高性能计算(High Performance Computing)是计算机科学的一个分支,研究并行算法和开发相关软件,致力于开发高性能计算机(High Performance Computer)。随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算机,而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。集群分为下面几种
主/主 (Active/active)这是最常用的集群模型,它提供了高可用性,并且在只有一个节点在线时提供可以接受的性能,该模型允许最大程度的利用硬件资源。每个节点都通过网络对客户机提供资源,每个节点的容量被定义好,使得性能达到最优,并且每个节点都可以在故障转移时临时接管另一个节点的工作。所有的服务在故障转移后仍保持可用,但是性能通常都会下降。
主/从(Active/passive)为了提供最大的可用性,以及对性能最小的影响,Active/passive模型需要一个在正常工作时处于备用状态,主节点处理客户机的请求,而备用节点处于空闲状态,当主节点出现故障时,备用节点会接管主节点的工作,继续为客户机提供服务,并且不会有任何性能上影响。
混合型(Hybrid)混合是上面两种模型的结合,只针对关键应用进行故障转移,这样可以对这些应用实现可用性的同时让非关键的应用在正常运作时也可以在服务器上运行。当出现故障时,出现故障的服务器上的不太关键的应用就不可用了,但是那些关键应用会转移到另一个可用的节点上,从而达到性能和容错两方面的平衡。
高性能计算集群依赖于并行处理系统,所以高性能计算集群信息需要快速的传入与传出内存。高性能计算集群系统往往是I/O密集型的,因此高性能计算集群选择正确的内存配置,可以显著提升高性能计算集群应用程序性能。
高性能计算集群系统依赖于DIMM模块,因为高性能计算集群是针对并行系统设计的。
高性能计算集群有三种DIMM内存可用:UDIMM内存、RDIMM内存和LRDIMM内存。高性能计算集群在处理较大型工作负载时,无缓冲DIMM速度快、廉价但不稳定。寄存器式DIMM内存稳定、扩展性好、昂贵,高性能计算集群对内存控制器的电气压力小。高性能计算集群同样在许多传统服务器上使用。降载DIMM内存是寄存器式内存的替代品,高性能计算集群能提供高内存速度,降低服务器内存总线的负载,而且功耗更低。
高性能计算集群应用程序正在迅速增长,所以高性能计算集群体系未来的扩展能力需要重视。
高性能计算集群系统设计与传统数据中心基础设施设计的一大区别就是选择现成工具或定制系统。现成的高性能计算集群只能在很小的范围内进行扩展,高性能计算集群限制了未来增长。HPC定制可以保持一个开放式的设计,让企业在将来获得更好的扩展功能。然而,高性能计算集群额外的功能对于定制系统来说是一笔不小的代价,比购买现成高性能计算集群系统要高得多。
高性能计算集群系统初次上线时,高性能计算集群所有的配置都很完美,但随着时间流逝,高性能计算集群配置会变得不一致。
高性能计算集群中出现不一致,高性能计算集群管理员可能会看到一些零星的异常货变化,高性能计算集群影响应用程序性能。考虑到潜在的性能,IT部门需要实施策略来确认高性能计算集群系统中都运行着什么应用程序, 并想办法让高性能计算集群配置同步。这些高性能计算集群检查每季度应该进行,或者每年不少于两次。
高性能计算集群在过去15年中,高性能计算集群能源成本随着高性能计算密度增加而急剧上升。现在高性能计算集群普通的服务器开销为每机柜30kw,高性能计算集群这个数字还在不断上升。由于高性能计算集群高密度,高性能计算集群高效率数据中架构基础设施与高性能计算集群冷却系统变得至关重要。
在高性能计算集群数据中心,高性能计算集群高电压电直接供给到机架,而不是采用传统的208伏降压,这样可以节约电子电力设备因电力转换的损耗。高性能计算集群利用节能型泵取代了嘈杂、低效率的风扇。