关 闭 

自主研发 曙光T2600刀片服务器技术解析

自主研发 曙光T2600刀片服务器技术解析

  目前,伴随着互联网发展的需求速度加快,使中、小企业、应用服务提供商、内容服务提供商、系统集成商、ISP等对服务器的需求也在不断增加,同时也造成了对IDC(Internet Data Center)互联网数据中心空间的紧缺。如何让服务器在相同的空间内得到更多的扩展,是早年间在业内的一个发展思路,于是刀片服务器诞生了。刀片服务器凭借密度高、占用空间小、功耗低等特点受到了用户和IDC的欢迎。以前刀片服务器都是被国外品牌所垄断,而且也没有统一的标准。随着刀片服务器技术日趋成熟,作为国内服务器大厂之一的曙光,于今年6月推出了一款高性能刀片服务器产品TC2600,吹响了曙光全面进军刀片服务器领域的号角,下面我们ZOL服务器频道将为您介绍这款TC2600服务器的技术特点。


怎样理解刀片服务器?


  经常会有朋友把1U机架式服务器误以为是刀片服务器,其实有这种理解的并不为过,主要还是因为大家对刀片服务器还比较陌生。我们提到的刀片其实是按照机箱结构来分类的,一般服务器机箱结构可以分为三类:塔式服务器、机架式服务器、刀片式服务器三类。


  刀片式服务器简称为HAHD(High Availability High Density即高可用高密度)的低成本服务器平台,是专门为特殊应用行业和高密度计算机环境设计的,在标准高度的机架式机箱内可插装多个卡式的服务器单元,实现高可用和高密度。其中每一块“刀片”我们可以看作是类似于一个独立的服务器,并且都是热插拔的,在维护时可以轻松地进行替换,节约了维护时间。


  除了前面我们介绍的刀片服务器的特点之外,刀片服务器还拥有热插拔和冗余等技术,通过负载均衡技术以及管理软件,可以有效地提高了服务器的稳定性和核心网络性能。刀片服务器在数据运算、系统结构等方面的优势,使得刀片服务器成为高性能计算机产业的未来之星。



自主研发 曙光T2600刀片服务器技术解析

图为曙光TC2600服务器


  作为曙光征战刀片服务器市场的利器,TC2600凝聚了曙光的智慧精华,6大特色技术铸就了这款军刀无匹的锋锐:

高效的BladeEngine智能平台:


  刀片服务器最大的特点就是高密度的机箱设计,合理先进的机箱构造是衡量一款刀片服务器性能的重要指标。曙光BladeEngine刀片机箱采用7U10片的超高密机构设计,使整个机箱能够增加42.8%的计算密度,可最大限度地提升数据中心和高性能计算中心的处理能力;全模块化的设计能节省 86% 以上的电缆,从而节省安装部署的时间和电缆花费。目前对该架构,曙光已经递交发明专利的申请。

冷静自若的线形预补偿散热模块(LPCM):


  刀片服务器设计最大障碍为散热问题,大部分的刀片服务器项目的失败主要是由于散热无法过关。曙光刀片服务器首先在确定科学的系统架构基础之上,保证系统散热和计算密度达到平衡。曙光TC2600特有的线形预补偿散热模块(LPCM)是曙光最新研发的散热技术,配备6个冗余风扇,能够根据温度变化,线性平滑调整风扇转速,减弱噪音,降低不必要的功耗;同时LPCM还能根据温度变化,预测下一阶段温度变化趋势,提前进行转速调整补偿,保证风扇转速和噪声平稳,保障刀片服务器在任务变换时的散热效果,延长风扇的使用寿命。

自动智能调节电源模块SRPM:


  刀片服务器是一种高密度集中的结构设计,在有限的空间里满足高性能计算应用的需求,电源供电系统的重要性不言而喻, TC2600刀片服务器配备了6个1000W具有负载均衡和故障切换功能的热插拔电源模块,支持“4+1”和“4+2”两种电源冗余方式,可选两种工作模式:手动优化和自动智能调节;SPRM可以根据功耗变化,自动智能调节电源系统的管理策略,能够始终保持电源模块工作在效率曲线的高点,减少不必要的功耗损失,大幅增加电源的使用寿命;除此之外SRPM还支持实时状态监控、远程电源控制和实时的电源负载测量和显示。

全视角管理模块:


  承担高性能计算任务的刀片服务器,需要管理人员随时把握系统的运行状况,调节系统的运行状态,因此在管理维护方面尤为重要,TC2600内置曙光Dawning Blade Full View Management System管理软件,能够通过WEB页面的形式管理系统的运行,可提供所有组件的最新状态及图形标示的详细信息,支持实时状态监控、故障预警,动态优化调整资源配给和工作策略;提供多种错误故障报警方式,日志、审计和报表可供查询;允许加密的远程控制,可从任何位置控制操作及监控整体运行状况。

高效的IB高速交换模块:


  高性能计算应用需要不断的与外界交换数据,庞大的数据交换工作,对于服务器系统的I/O交换是一个巨大的挑战。曙光TC2600刀片服务器采用第三代Infiniband Switch 芯片,提供高达800Gb/s的交换带宽,远远超过市场同类产品;除此之外,高带宽、低延迟、全互联的Infiniband交换模块,能够提供10个传输速率为20Gb/s外联端口,支持铜缆和光纤接头的转换;并且支持VL(Virtual Lane)划分,让数据中心的数据交换工作轻松自如。

创新的I/O扩展模块:


  I/O扩展能力一直以来都是刀片服务器的一大诟病,刀片服务器产品在需要扩展其它插件的时候,一般都借助于主板子卡的扩展形式,而且只能进行单一功能的扩展。曙光TC2600创新性的I/O扩展模块打破了一直以来刀片服务器I/O扩展方式的限制。TC2600为每个刀片独立配置了PCI-E扩展插槽,能够兼容网卡、FC HBA、iSCSI HBA、Infiniband HCA等业界绝大部分PCI-E板卡,为刀片服务器系统的I/O扩展提供了更为灵活的选择。


1.优异的系统平衡架构设计


  据了解,这款产品在设计之初,充分分析了机架式机群系统以及市场十几款厂家的刀片服务器产品的特点,并针对其架构的优缺点进行分析,进行了详细的功率计算。本次研发的T2600刀片服务器7U 10片的超高计算密度设计,最大支持20颗双核/四核64位高性能处理器、160GB DDR2内存和2.94TB的内部存储容量,这样使计算密度相对1U机架服务器提高1.43倍,同时保证计算密度同系统I/O每刀片提供42Gbit/s的I/O带宽。


  该刀片服务器每刀片提供两颗双核AMD Opteron2000系列处理器,另外为每个刀片也已经为四核处理器产品做好了升级。因为AMD处理器集成内存控制器,而且采用AMD直连架构,配以HT2100+1000芯片组,最高支持16GB ECC Registered DDR2-533/667内存。


  每刀片可配置两块2.5”SAS/SATA热插拔硬盘,支持RAID0、1。刀片本身支持热插拔,可在系统运行过程中进行硬件维护。配置前置I/O管理接口,可连接键盘鼠标显示器及USB外设对每个刀片单独进行维护。计算刀片提供曙光智能管理卡接口,同管理模块无缝连接。


  在背板带宽和延迟方面,是刀片服务器性能瓶颈。而在曙光刀片服务器系统中,整个刀片背板总带宽为950Gb,信号延迟为纳秒级,大大提高了计算系统带宽并降低延迟,很好的实现了计算能力同I/O能力的平衡问题。同时,创新的把PCI-E总线引入背板。因为背板信号为PCI-E,在背板的后端,可以根据系统需要灵活的设计各种高速交换设备,比如InfiniBand交换、Myrinet交换、ASI交换、FC交换等。

2.方便的部署和管理

部署简化

  曙光刀片服务器在部署方面. 安装维护过程大大简化:由于所有计算刀片通过背板实现互联,而背板在与网络交换模块,存储交换模块以及监控管理模块互联,而这些互联完全是通过PCB布线完成的。这样做的至少有四点:1、大量节省电缆线的成本;2、对于安装过程而言,可以节省了传统机架式服务器的外部多如牛毛的布线工作,节省大量工作时间,降低安装成本;3、有效的降低系统由于接入问题(虚接、错节)而引起的不稳定性因素,从而提高系统的稳定性与可靠性;4、对于更换节点的维护工作而言,比传统的方便了许多。更换工作只是把旧刀片从机箱中拔出来,插入新刀片,就像更换热插拔硬盘一样方便,而不用考虑网络与光纤的再连接,对于传统的机架式服务器而言这也是一个比较繁琐的工作。
 


集成管理,便捷维护


  曙光刀片服务器管理监控高度集成:通过统一的监控界面,监控所有刀片资源,包括机箱电源、风扇、计算刀片、背板、交换机。管理系统整合目前两大监控技术,即IPMI以及KVM (Over IP),真正实现监视控制一体化。同时,为实现方便快捷的刀片服务器管理,通过优化的管理软硬件设计,改善可管理性,增强部署和可服务性,这些将降低总的所有权成本。


曙光刀片服务器监控管理系统实现以下功能,分别为:


1.对各部件的在线检测,工作状态监控,通过检测得知当前工作情况;
2.优异的电源管理策略,以及功率管理策略;
3.智能冷却系统管理策略;
4.刀片健康信息监测,系统资源监测;
5.实现所有本地控制操作,如KVM、Share Media、各部件上下电管理;
6.实现所有远程控制操作,如IP KVM、Virtual Media、部件远程上下电控制;
7.良好的人机交互界面,实现多元化报警、提供日志、数据分析、实现用户管理策略定制和部件故障预报警;
8.管理系统支持冗余,通过心跳实现监测和切换;
9.为其它管理软件提供通讯接口;


  其中真正解决计算刀片远程管理的主要依靠KVM over IP以及Virtual Media两项技术。所谓KVM Over IP,指透过Internet环境,以TCP/IP网络为接口传送视频信息,并远程操控散布在各地机房中的服务器的解决方案。相对于模拟式KVM,KVM over IP技术提供了相对弹性的管理方案,网管人员可以在全球任何地方,透过TCP/IP网络来远程管理任何机房中的刀片服务器。


  了可能。KVM over IP系统,充分利用了现有的以太网和其他IP网络,取代了对专用电缆和信号系统的依赖。为确保路由能力,KVM系统必须使用真正的IP协议,而不是仅仅将IP网络用来传输专用模拟信号。


Share Media以及Virtual Media技术


  该技术实现了USB共享及远程化,即在远程通过一台主机连接到管理系统的网络,而不是计算刀片的网络,把远程机器的存储介质通过管理网络映射成计算刀片的USB设备,实现远程的系统安装,软件拷贝等。


  配合KVM over IP以及virtual Media技术可以透过网络远程实现在本地刀片所有的操作,例如开关机、操作鼠标、键盘、显示器,安装各种软件等。采用曙光刀片服务器可以大大降低部署工作及其成本,而采用曙光刀片服务器监控管理系统则可以把管理员从机房解放出来,在远程进行所有的管理工作,大大降低系统的维护成本。

3.节能设计


为降低功耗,曙光刀片服务器采用先进的多渠道节能技术,主要体现在三个层面:


1.根据实时功耗确定工作电源个数,使电源工作在最佳效率曲线上。


  系统充分对功率部分进行设计,设计分成静态功率设计及动态功率设计,控制方式如下:第一,在对第一个刀片上电时,并没有作功率计算,是建立在一个电源模块能够支持至少一个刀片服务器和所有其他辅助模块的假设前提下,如果这个假设不成立则需要在第一个刀片上电前进行计算;第二,对于功率分配计算分为两步,第一步是上电前的电源功率预分配,在这一步功能模块是把自身在固定Flash中存储的最大满配情况的功率需求发送给管理模块进行审批(满配并不代表实际配置),等刀片完成了BIOS自检之后还要提交电源功率实际分配的申请给管理模块,这是第二步电源分配的结果。例如,根据不同的配置刀片中可以插入8条内存、4条内存、2条内存或者两块硬盘或者一块硬盘,甚至将来的单双CPU不同,以上情况功耗有明显差异。通过这种两步电源分配的策略,一方面可以保证刀片不会误上电(最大满配功耗),另外一方面可以保证功耗使用的精确性,使功耗分配更加合理。


  本项目刀片服务器采用6颗电源,每颗1KW,在管理系统确定功耗后,进行最佳电源效率判断,然后确定是否需要关闭或者打开电源。例如一个系统中有6颗1kw电源模块,在最大90%负荷时电源转换效率最高,为85%,而在其负载为40%时其效率为65%。在系统工作的某个时刻,经过监控系统测出实际功耗为2700W,这样就可以关闭3颗电源,实现电源转换效率为85%,而如果不采用任何手段时,其效率仅仅为65%,系统实现节能30%左右,同时减少热量排放,降低冷却成本。


2.修改计算刀片操作系统内核,实现节能


  更改操作系统内核,优化程序执行队列或者根据负载情况动态调整CPU频率。主要原理是对CPU的运行状态进行计算,分析任务队列,对不同时刻进行功耗计算,同时建立一些CPU散热器的散热模型,在工作过程中,尽量把功耗高的任务与功耗低的任务交叉进行,这样可以保持CPU在稳定的负载下运行,减少热能的散发并提高运行效率。同时,当发现CPU任务队列对功耗需求较低,则通过BI/OS接口进行CPU功率的动态调整,比如一个刀片,CPU为AMD2218,主频为3.0GHZ,在CPU任务队列较少的时候,就可以根据任务需要把服务器的CPU从3.0Ghz调整倒一个比较低的频率,这样就可以使CPU的功耗大大降低。


3.多计算刀片任务调整调度


  在刀片系统的管理软件上,进行任务调度管理。例如,一个计算任务分在10刀片上部署进行,一旦管理软件探测到实际负载很轻,则把作业迁移刀片其中5个计算刀片上,关闭掉余下的计算刀片,实现系统功耗减少,从而完成节能。如果采用使用曙光刀片服务器搭建十万亿次级别的超级计算机,整体功耗估算为50KW,是传统机群功耗的1/6,大大提高了单位面积以及单位功率的计算性能。

4.先进的散热设计,采用工业通用部件

  刀片服务器设计的障碍主要有散热问题以及对工业标准件的支持问题,例如市场上许多厂家的刀片服务器要求采用低电压的CPU,非标准的内存,非标准的I/O卡。曙光刀片服务器首先确定科学的系统架构(7U10片,每个刀片宽度类似1U服务器),保证系统散热和计算密度达到平衡。另外,尽可能多采用工业标准部件,例如CPU,内存,热插拔硬盘,标准I/O卡等。



自主研发 曙光T2600刀片服务器技术解析

热仿真模型



  基于以上的理念,对系统的散热风道进行研究和设计,通过软件模拟散热仿真进行反馈和修正。最终在软件模拟仿真中通过了7U机箱内安装20颗120W高性能CPU,创造了业界记录。曙光第三代高效能通用刀片服务器散热仿真模型及单个刀片温度分布如图所示:


自主研发 曙光T2600刀片服务器技术解析
单个刀片的温度分布图


  在支持工业通用PCI-e I/O卡上,曙光刀片服务器创新的提出的I/O扩展模块的设计,为每个计算刀片提供一个标准的PCI-e ×16的槽位,可以插入任何标准的工业I/O卡,不需要单独设计子卡。

5、支持计算刀片异构


  目前曙光刀片服务器仅有支持AMD 双核/四核CPU的计算刀片,而支持其他类型CPU的计算刀片会陆续推出,包括Intel,龙芯,以及Power PC等。这些计算刀片可以同时在一个刀片服务器机箱中工作。

6、可重构计算实现通用刀片服务器的行业定制化


  在曙光刀片服务器中,支持通用的PCI-E I/O设备,同时设计了基于PCI-E采用FGPA实现的加速部件,加速部件主处理器为Xilinx最新的Virtex-5 系列高端FPGA。通过FPGA实现各种加速算法,加载此加速部件,可以实现刀片服务器在不同计算应用下的计算加速。目前这种加速部件称为可重构计算结构,以较低的硬件复杂度实现指令、数据及线程级的并行。


  目前刀片服务器应用涵盖了多个领域,有着不同的计算需求。例如在商业数据分析和基因测序中,要进行大量的数组运算、线形数据匹配、逻辑测试等等,而对于医疗成像,计算化学而言,其主要工作是同步映射、过滤等等。这些不同的应用需要不同的数学逻辑操作,以及有效的内存连接读取等。FPGA作为一个可重构计算引擎,可在软件控制下进行硬件单元优化工作来满足不同HPC应用需求而提高计算效率。FPGA的结构非常容易实现并行操作,因而,通过配置,它可以同时执行大量的数据吞吐操作,在这种情况下,该设备相当于多个传统CPU在同时工作。一个200Mhz的FPGA处理能力将远远超过一个3Ghz的通用CPU,然而功耗仅仅是后者的1/4。例如在生物计算中,FPGA相对于一颗传统处理器在处理DNA基因排序上能往往能够加速50倍到100倍,在医疗CT的2D,3D的图像处理上能够加速10倍左右,对于一些通用的算法,类似于FFT,一般情况下FPGA的加速至少可以达到10倍以上。


  根据刀片服务器的应用环境我们可以在加速部件上调用不同的数据库,这样通用的刀片服务器就变成了行业定制的特殊机器,在运算能力上大大提高,同时功耗大大降低。采用此技术可以实现刀片服务器的高效能同时实现通用刀片服务器定制化。


总结及应用推荐:


  可以看到曙光刀片服务器的设计在系统架构、散热和节能技术、背板技术、支持标准工业部件等方面都具有一定优势。在我国制约刀片服务器发展的不仅仅是技术和应用的不成熟,刀片服务器的扩展升级问题以及标准化的规格,一直是多年以来困扰刀片服务器发展的一个问题。没有统一的标准,因此每个厂家的刀片服务器产品都不能相互兼容,这就极大的提升了用户升级的困难和成本,可以说,标准化是目前刀片服务器产业发展的最大困难。


  在文章中,我们可以感觉到曙光在积极致力于推动刀片服务器统一标准的建立,在设计TC2600之初,就坚持使用工业标准部件。从CPU、内存、硬盘到PCI-E卡都可以支持标准工业部件,用户可以根据应用的需求,轻松对服务器系统进行升级,降低了整体的使用成本。


  凭借曙光TC2600服务器产品所具备的高密度、低复杂度、优秀的散热和环保节能技术等优势,我们推荐该刀片服务器应用于电信、金融、教育、企业数据中心、能源、科研等诸多核心业务领域,来满足更高性能的计算需求和关键应用程序运行的理想平台。

回复     TOP  

顶啊顶啊,别沉了贴


不错的手机商家,顺便跟大家说说3个W。Y R 9 88。CoM, 大家可以先进去看看全国最便宜的特价手机.质量的确好.还带有全国联保..

回复     TOP

继续

回复     TOP

楼主辛苦了,继续支持


不错的手机商家,顺便跟大家说说3个W。Y R 9 88。CoM, 大家可以先进去看看全国最便宜的特价手机.质量的确好.还带有全国联保..

回复     TOP

辛苦

回复     TOP

ding

回复     TOP

科学发展好快,太先进了。永远支持你们。加油。

回复     TOP

好帖顶

我服了,曙光T2600刀片服务器性能太强了,真想买一台当作家用。

回复     TOP

曙光中央政府采购供货单位  北京新辰华创科技有限公司
010-82666714    杨经理

回复     TOP

快速回复主题


粗体 斜体 下划线 图片 链接

         

[Ctrl+Enter 快捷发布] 恢复数据 清空内容

ZOL简介 | 用户注册 | 广告服务 | 人员招聘 | ZOL历程 | 互动营销中心 | 站点地图 | 联系方式 | 欢迎投稿 | RSS订阅 | 友情链接
Copyright ©1999 - ZOL. All rights reserved. 中关村在线 版权所有.