作者:郭娟 / 日期:2015-06-08
携程宕机事件再次让人们关注起IT运维的话题,试想,一个企业拥有那么多业务线,支撑诸多业务的IT系统稍微出点差错,牵一发而动全身。据了解,携程此次宕机12个小时,损失超过1300万美元。顺丰科技的总裁田民甚至打了个比方:“就像天天背手榴弹一样,就害怕某个系统出一点点差错。”
“只要数据中心网络出问题,甭说是几个小时,就只有半小时,杨元庆就会把我叫过去,两小时,肯定是整个董事会都会来找我。” 联想全球服务、联想集团高级副总裁、前联想集团CIO王晓岩女士这样说。
日前,《商业价值》出版人、钛媒体联合出版人、ITValue发起理事刘湘明就这个话题与田民、王晓岩以及京东商城研发部副总裁马松做了一次对话,联想、顺丰和京东,这三家企业所涉及领域不同、业务线迥异,他们的IT运维有什么高招?
王晓岩:联想运维团队人数占据整个IT人员的一半
联想IT运维的挑战是国际化业务之后凸显出来的,因为之前,我们对系统压力较大的业务是一些技术体验的,一些运维工作也在夜里完成,国际化后,我们要全天24小时要支持我们业务。
联想的业务跑了160个国家,办公室遍布全球六七十个国家,我们的主数据中心在北京,灾备中心也在国内。联想从2005年、2006年开始铺设架构,基本上是一个集成化的部署,主要的IT数据中心都在国内,但是它是支持全球的7*24小时的运作,对运维就提出了很高的要求。
我们也想过将IT运维外包,它是基于客户的有问题的数来做支持的,成本高,响应也不及时。另外,客户端要感觉好,重要的系统端也不能出故障,这时候要求我们整个运维的计划要特别强。我们要看下一点的整体运行时间,哪个时间是计划内的系统的运维时间,这个时间怎么事先跟业务沟通好,当然我们计划的时间都是在业务相对低谷的一些时间,业务少一点的,要实现跟业务沟通好,哪些可能是计划外的,其实我最大的挑战不光是运维,我们已经谈到,我们的MTP,也就是从测试的部分,或者开发系统挪到生产系统,是一个非常复杂的过程。
所以现在在联想IT人员不到2000人,运维团队约有1000人的规模。还有一部分是外包给自己的服务部门,最重要的还是在管理上要效率。实际上我坐飞机的时候,或者出差的时候,或者是节假日的时候,我对新系统上线是最担心的,尽管我每天非常忙,但是我最担心的是数据中心网络出问题,因为只要数据中心网络出问题,甭说是几个小时,半个小时,杨元庆就把我叫过去了,两小时的肯定是整个董事会都会来找我。
尽管我们有灾备中心,我们的灾备中心也从来不用,但我必须得保证所有的工作做到位,所以要求无论从网络、从数据中心都要有目的性,包括每年PC销售的高峰和低谷差别很大,高峰到来的时候一定要事先来做好预演工作来确保系统不出问题。所以我们运维的难度是国际化的难度,传统的IT集成性难度非常高,我们必须在管理上要特别严格,联想这些年当然也积累了非常丰富的经验。
田民:顺丰的系统引入自动检测工具
顺丰的业务形态决定我们要用RO的架构,因为顺丰的系统是第一个在中国使用全自动分检功能,这个系统如果我们宕机半个小时的话,可能就是非常大的灾难性的损失。
我做物流可能也做了差不多二十年,对于IT系统的运转,我打个比方,就像天天背手榴弹一样,就害怕某个地方出一点点差错,所以,我们快递的业态决定用很多自动化设备。
顺丰目前为止还只是同城的灾备,顺丰目前每天包裹量是700万,双11高峰时达到1200万,系统里都上亿的。我们跟电商唯一的不同,我们在系统里面要保留数据的要求比较大,因跟电商系统下单后,可能刚刚进入我们的物流系统,仓储状态还没显示,所以要保留一个周期,这样的业务状态对数据库的要求非常高。所以我们在前一阶段在数据库上用很多小型机来保持系统的稳定性。
另外我们研发了很多自动检测工具,来预防未来这种事情的发生。我们最近也有很多系统在突发之前已经预警,也帮我们解决了很多问题,实际上购物数据一旦出点问题的代价很大,但是我们通过所有可能的方法,通过预演,我们用最短的时间让系统恢复。
马松:一根电缆影响不到京东的服务
京东的交易非常复杂,不仅有正常的自营业务也有POP商家,也有面向海外的,也有诸如散购、京东到家等,业务线非常多。
每条业务的购物流程都不一样,整个服务体系的系统分布在不同的地方,所以切换过程相当复杂,我们也在每个单独系统也都做了切换,所以我相信,大部分主要的业务不至于因为一根电缆影响到业务。
我们事前也会也做很多演练,这方面也能做到一定程度的保障。当大规模访问爆发时,例如即将到来的6.18,对系统的要求集中在能不能提供信息安全、稳定性、高可用性这块,因为我们毕竟是面向海量用户做服务。