在今后的发展中,数据中心也将会成为企业竞争的资产,商业模式也会因此发生改变。随着数据中心应用的广泛化,人工智能、网络安全等也相继出现,更多的用户都被带到了网络和手机的应用中。随着计算机和数据量的增多,人们也可以通过不断学习积累提升自身的能力,是迈向信息化时代的重要标志。
或称为服务器场(server farm),指用于安置计算机系统及相关部件的设施,例如电信和储存系统。一般它包含冗余和备用电源,冗余数据通信连接,环境控制和安全设备。
数据中心在早期巨大房间内的计算产业中是有根源的。早期的计算机系统操作和维护都复杂,需要一个特殊的环境来操作。连接所有的组件需要很多电缆,进而产生了供应和组织的方法,例如标准支架来安放设备,提高的地板,以及电缆盘子(被安装在头顶上或升高的地板下)。同样,旧的计算机需要大量的电源,不得不被冷却以防止过热。安全非常重要-计算机非常的贵,并且常常被用于军事目的。控制计算机房间访问权限的基本设计方针因此被设计。
在繁荣的微型计算机行业,尤其是在20世纪80年代,计算机开始四处发展,在很多案例中很少有或没有操作需求。然而,随着信息技术(IT)的发展,操作开始变得复杂,公司渐渐地认识到需要控制IT资源。随着客户端-服务器计算的出现,在20世纪90年代微型机(被称为servers)开始在旧计算机房间中寻找他们的位置。便宜的网络设备的可用性,外加网络电缆的新标准,使得在公司内的一个房间中,使用分层设计来放置服务器这种可能,在这个时刻被公认,并不断流行开来。
数据中心的繁荣在dot-com泡沫中来临了。公司需要快速的Internet连接,以及不断的部署系统并出现在Internet上。安装这种设备对于许多小公司是不可行的。许多公司开始建立非常大的设备,被称为Internet数据中心(IDCs),它提供了商业上的系统部署和操作的解决方案。新技术和实践被设计用来处理测量和如此巨大测量操作的操作需求。
从2007年起,数据中心设计、构建和运作是一个众所周知的学科。标准文档来自于可信任的专家组,如电讯产业联合会,详细说明数据中心设计的需求。众所周知数据中心可用性的操作韵律学能够用来评估商业中断的影响。有许多开发在操作实践中被完成,并且设计了友好环境的数据中心。
IT业务是大部份组织的业务中最关键的一个方面。主要的一个关注点是商业连续性;公司依靠他们的信息系统来运作他们的业务。如果一个系统变的不可用,公司运作可能被削弱或被完全停止。针对IT业务保证一个可靠的基础构造组织,将破坏的可能减到最小,是很必要的。信息安全也是一个关注点,为了这个原因,一个数据中心不得不提供安全的环境以保证最小化一个安全突破口的可能性。一个数据中心为了它的主机环境的完整性和功能性,必须因此保持高标准。这个通过双份冗余的光纤光学电缆和包含应急备份发电电源被完成。
TIA-942:Data Center Standards Overview描述了数据中心基础架构的需求。最简易的是Tier1数据中心,他基本上是个计算机房间,有基本的计算机系统安装指引。大部份迫切需求的是Tier4数据中心,被设计为主机的任务评价在于计算机系统,这种系统要完全的冗余并且要被划分安全区域,这个安全区域要由生物学测量来控制访问。另一个考虑是数据中心地下内容的布置,为了数据安全也为了环境考虑,例如冷却需求。
一个数据中心占用一幢大楼的一个房间,一层或多层,甚至整栋大楼。大部份的设备常常放在具有19英寸的隔层的机架中。这些机架成排放置,形成一个走廊。这允许人们从前面或后面访问隔层。服务器从1U的服务器到独立筒仓的存储设备在尺寸上有很大的不同,存储设备要占掉很多块地砖。一些设备,像大型计算机和存储设备常常像他们的机架那么大,并被放在他们的旁边。非常大的数据中心可以使用集装箱来放置,每个集装箱可以放置1000或者更多的服务器;当有维修或升级需要的时候,整个集装箱会被替换而不是维修单个的服务器。 本地编译的代码可以控制最小的上升限度。
数据中心的物理环境是严格受控的:
空调控制数据中心的温度和湿度。ASHRAE's “数据处理环境的热量指导” 建议温度在20-25 °C(68-75 °F) 并且湿度在40-55%,以数据中心最佳条件17 °C作为最大露点。电源会加热数据中心里的空气。除非热量被移走,否则温度会持续上升,导致电源设备故障。通过控制空气温度,服务器组件在搁板层保持着制造商说明的温度/湿度范围。空调系统通过冷却来回的在露点以下的空间空气,帮助控制湿度。太湿的话,水开始在内部组件上浓缩。假使空气干燥,辅助潮湿系统会增加水蒸气,如果湿度太低,将导致静电放电问题,那将损坏组件。地下的数据中心比起常规的设计,能够花费更少而保持计算机设备冷却。
现代数据中心试图使用节约装置冷却,在那里他们使用外界空气来保证数据中心冷却。华盛顿州现在有几个的数据中心,一年11个月使用外部空气冷却所有的服务器。他们没有使用冷却机或空调,他们创造了势能节省了数百万。
备份电源由一个或多个不间断电供应和、或者柴油机组成。
为了防止单点故障,所有的电系统元素,包括备份系统,都典型的完全复制,并且关键服务器连接两个电源(“A-Side" and "B-Side")区域。这种安排常常用于完成系统的N+1冗余。静态电闸有时被用于在电源故障事件中保证瞬时转换一个到另一个。
数据中心典型地使用升高60cm(2 ft)的地面,可移动的方块砖。现在的趋势是80-100cm(31.5-39.4in),空闲区域的增加是为了更好的保证空气流通。这种供应是为了空气在地下充分流通,作为条件系统的一部分,也是为电力电缆提供空间。在现代数据中心中数据电缆典型是使用架空电缆。但是,有些出于安全原因还是将他们置与地板下,并且有必要增加在架子上的冷却系统。更小/更少花费的数据中心没有升高地面而是使用相反的静态地砖在地面上。机算计电缆常常放置在走廊中,以保证最大化的气流效率。
数据中心的一个特征是防火系统,包含被动的和主动的设计元素,以及在业务中防火程序的执行。烟检测器都会被安装,它可以在有火焰之前检测到焖烧产生的烟的源点,而发出警报。这允许调查,中断电源,并使得能够在火灾变大之前,让人使用灭火器灭火。一个自动喷水灭火系统常常被用来控制火势发展为大范围的火灾。自动喷水灭火系统要求在喷水灭火器下的清除的18”。和喷水灭火系统相比,清除事件灭火气体系统有时被安装用于早期火灾。被动的消防保护元素包括在数据中心周围的防火墙,所以大火能够在大火保护系统失败或没有安装的情况下较容易地控制在一定的范围内。
物理安全在数据中心里也表演了一个大角色。物理的访问地点常常限制于被选择的人员,包含安全控制系统。视频监视和永久安全警报常常用于大数据中心或者包含机密信息的数据中心。
现时网上商贸、搜寻、云端运算公司需要快速部署数据中心,又或灾难恢复运用,因此厂商开发了流动数据中心(Portable Data Center)解决方案,能够快速搬运数据中心并在短时间内安装操作。
生产流动数据中心的厂商和产品包括:Google的 Google Modular Data Center 、升阳计算机的 Sun Modular Datacenter 、 IBM的 Portable Modular Data Center 、思科系统的 Containerized Data Center、HP的 Performance Optimized Datacenter和北京天地云箱科技的云箱。
一个数据中心的主要目的是运行应用来处理商业和运作的组织的数据。这样的系统属于并由组织内部开发,或者从企业软件供应商那里买。像通用应用有ERP和CRM系统。
一个数据中心也许只关注于操作体系结构,或者也提供其他的服务。常常这些应用由多个主机构成,每个主机运行一个单一的构件。通常这种构件是数据库,文件服务器,应用服务器,中间件以及其他的各种各样的东西。
数据中心也常常用于非工作站点的备份。公司也许预定被数据中心提供的服务。这常常联合备份磁带使用。备份能够将服务器本地的东西放在磁带上,然而,磁带存放场所也易受火灾和洪水的安全威胁。较大的公司也许发送他们的备份到非工作场所。这个通过回投而能够被数据中心完成。加密的备份能够通过Internet发送到另一个数据中心,安全保存起来。
数据中心网络常见的通讯故障主要集中在:硬件故障、系统故障两个类别:
(1)硬件故障:
数据中心是通过无数计算机硬件组成的,硬件出现问题,就会导致部分功能无法正常发挥或运作。无论是设备、线路、端口,哪一点出现故障,都会导致网络通讯故障的出现。硬件方面的故障相对比较容易查找,例如线路故障,一般的成因就是线路明显的老化或者破损,而影响到了整体网络的运营;再比如,端口故障,计算机端口作为数据中心网络的重要环节,若出现接触不良、损坏等传输问题,就会影响到整体网络的运行。硬件故障只要进行逐一排查,就可以及时进行更换处理,相对比较好解决。
(2)系统故障:
数据中心是计算机领域比较热门的研究之一,因此研究技术十分成熟。计算机网络构成主要包括TREE、FAT-TREE、BCUBE、FICONN等,主要采用模块化、层次化、扁平化的设计思路与虚拟化的分割管理技术,将成千上万台设备,以单元为单位进行划分,逐一进行管理。通过分层、递归的结构进行联结,尽可能的避免了所谓“关键节点”的存在。这样组合也形成了良好的冗余与容错性,如果其中出现故障的某一个或某几个单元,没有被检测出来,也不至于影响数据中心的整体运行。但是如果超出一定比例,就会在影响数据中心网络的高速运行,拉慢网络通讯的速度,所以仍旧需要针对性的查找故障进行处理。
(1)分析故障现象:
一般来说由于构成组件比较复杂,故障也呈现出不同的表现方式。因此想要对于故障进行分析,就要先了解故障的现象。例如,应用方面出现了支付系统支付不了,网页难以打开等问题,那么就要逐一检查相关的故障点,有哪几个故障是上述表现,如,线路故障,端口故障等,就要更换线路、端口等设备。因此,需要针对数据中心网络的几种常见的故障进行收集与整理,根据现象,进行检索、查找。
(2)测试并确认故障范围,进行故障点定位。
所有的应用业务是在这些物理硬件正常运行的基础上开展的,其中某些硬件出现问题就会导致故障。根据故障的表现,需要针对各个部分进行筛选检查,例如,对于服务器进行测试,检查网络设备等。针对问题表现,进行逐一排除,最终敲定故障点所在位置。
(3)如果以上硬件故障都已经排除,那么就是计算机系统的故障,这一故障需要建立故障模型进行诊断,根据PMC模型进行定义。通过分层测试的方法,查找问题单元,即正常单元测试正常单元、正常单元测试故障单元、故障单元测试故障单元、故障单元测试正常单元等四种。其中后三种的检测结果都是故障,因此就可以通过分层测量的方式,建立有限个单元,通过矩阵以及萤火虫算法重点FAFD算法对于其他单元进行诊断,最终确定故障的系统是哪个或者哪几个单元的。当然也可以通过镜像、流量统计、抓包等其他手段确定故障所在的设备范围,进而缩小范围,集中处理某一个或者几个设备。
(4)收集重要的数据信息。
在进行故障处理时,通过收集设备的日志、诊断、操作记录等信息资料,将这些数据资料进行汇总,条件允许的情况下,建立故障数据库,对于常见问题可以做到“出现即处理”,对于没有出现过的故障,可以继续收集进数据库。总之,必要的信息收集,有利于日后更好的查找故障原因,确保数据中心网络健康、平稳运行。