IBM大型机永不宕神话破灭
2015-08-21 00:10:47 -0400
【编者按】在服务器领域,大型机一直是关键业务的代名词,也代表了最高稳定性和安全性。不过近几年,随着应用类型的不断扩展和X86技术的日益完善,大型机也开始逐渐“走下神坛”,其中也暴露出了严重的安全性问题。据悉,12月15日下午,中国银行采用的IBM大型机在运行过程中突然宕机,时间长达4个小时。作为微博消息,这或许仅仅引起了IT行业的内部关注,但是从所应用的业务来说,却造成了严重的问题。甚至就连中国银行信用卡中心的官方微博也不得不出面澄清此事带来的负面影响。[阅读全文]
IBM大型机宕机长达四小时,稳定安全成空话
中国银行信用卡微博澄清IBM宕机事件
大型机一直给人以“稳定、安全”的概念,事实上这也正是IBM在宣传时所特意强调的,但本次大型机的宕机无异于对这种说法进行了驳斥。作为单机系统来说,无论设计得如何精妙,维护得如何稳定,都不可能保证100%的无宕机。其实这已经并不是金融行业第一次出现大型机宕机的事情了,早在2010年新加坡的星辰银行和2011年的美国银行都出现过大型机宕机的事件,而由于大型机都是用在银行、通信这样的关键领域,一旦宕机就会关系到诸多用户的金融安全问题。
对于关键业务来说,降低故障率是厂商永恒的追求,而在服务器中,大型机的安全性也是首屈一指。虽然所有服务器都号称可以实现7*24小时运行,但也不免会出现一些故障,这是人之常情。而对于银行来说,这样的关键业务没有在第一时间采用应急方案,或者说应急预案没有在第一时间奏效,造成了长达4小时的故障,这本身就是一个非常严重的错误。
具体说来,针对关键业务——就是指企业和机构中那些不能在运行中出现间断的核心应用,特别是政府、国防、安全、电信、金融、交通、医疗等关系到国计民生的行业中企业和机构所运行的这类应用,在实际应用中提出了RAS要求——可靠性(Reliability)、可用性(Availability)和可服务性(Serviceability)。
IBM宕机损失惨重,服务器每年非计划停机不超5分钟
IBM大型机号称永不宕机
或许有些网友对于本次宕机的严重性还不清楚,因为在日常生活中我们使用的电脑也会出现宕机的事情。但是电脑宕机,最多只影响个人的应用体验,大型机特别是负责关键业务的大型机宕机,性质就要严重得多,带来的损失也更大得多。我们可以听听行业内的专家和专业架构对于关键业务宕机是如何看待的。
中国银行业监督管理委员会业务创新监管协作部副主任王岩岫曾经表示——如果银行系统中断1小时,将直接影响该行的基本支付业务;中断1天,将对其声誉造成极大伤害;中断2-3天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。而调研机构Qualix Group曾有一组数字说明不同行业关键业务中断带来的金钱损失:服务器宕机1分钟,平均会使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元,证券业损失45万美元……这也从直接经济效益的角度解释了关键业务平台对于稳定性和可靠性的要求。
因此对于以上行业的关键业务来说,都需要遵循“5个9”(99.999)、“6个9”(99.9999%)甚至“7个9”(99.99999%)的标准来加以评估,而这些标准代表的,就是一台服务器每年的非计划停机时间分别只有5分钟、30秒和3秒钟。由此我们可以想象本次4小时宕机的时间是多么漫长,所造成的损失又是多么巨大。
两地三中心备份成摆设,容灾系统未启用是技术故障还是心理压力?
两地三中心组网示意图
在本次宕机事件中,网友们热烈讨论的就是为什么系统没有在第一时间切换到备份服务器,一般说来备份分为本地和异地备份两部分,也是许多数据中心都在应用的模型。在金融行业中,通行一种名为“两地三中心”容灾备份系统的概念,许多银行也都在采用这样的备份模式。但是从这次宕机的结果来看,备份系统并没有起到丝毫的作用。
笔者认为,之所以中国银行没有迅速切换到备份系统,还要归咎于金融行业的业务特殊性和大型机所带来的心理安全感。一般来说目前灾备中心采用主备模式,多数情况下IT设备处于闲置状态。平时这些设备可以用于测试环境或者准生产环境,提高了设备使用率。此外,采用虚拟化技术,将灾备中心的服务器配置成多台虚拟机,分给不同的用户所使用,充分地使用硬件资源,也降低了灾备中心设备的能耗。另一方面,银行的灾备系统主要以模拟方式进行,通过桌面模拟演练和Call Tree演练,验证灾备体系的可用性和有效性,只是大家迷信于大型机的“稳定、可靠”,备份系统恐怕从未应用过,更别提在关键时刻担当重任。
更重要的原因是,本次宕机的是负责信用卡业务的服务器,如果启用备份系统,由于存在应用上的未知性,没人知道启动之后会出现什么问题。而据供职于央行的某位IT顾问透露,任何时候银行系统出现问题,都需要一把手拍板做决定,其他人没有这个责任和胆量启动预备系统。由此也不难理解为什么本次中国银行宕机事件没有迅速解决的原因了。
结语
许多年来,大型机事故频发也意味着所谓“大型机依赖症”的心态还呈现出主流的趋势,虽然目前云计算和大数据的观念已经深入人心,但是要实现切实的改进还是要有很长的路要走。
不过我们可喜的看到,随着行业的发展,如今许多金融机构开始尝试使用X86系统进行一些非关键性的业务,比如接入服务器或者存储服务器。从这一点来说,X86架构如果想实现最终取代大型机,不仅仅需要技术上的不断改进,还需要转变人们的心理认识,而后者恐怕是需要长时间的积累才能完成,不可能一蹴而就。
总体说来,对于IT运维而言,没有一成不变的选择,也没有永远安全的设备,无论是RISC还是X86架构,惟有适当的运维和安全的灾备才能保障业务的万无一失。
Back to home
Subscribe |
Register |
Login
| N