作者:佳音 ITValue / 日期:2017-06-30
ITValue注
高志国:联想超融合副总裁,博士,毕业于清华大学电子工程系,先后就职于IBM研究中心,SAP咨询部,以及联想集团CIO组织基础设施和平台部。13年ICT领域从业经验,拥有25项全球技术专利,参与并领导过分布式中间件产品的设计和研发,以及多项电信行业、教育、电信行业大规模企业级IT项目的整体规划、交付与实施。
本文节选自高志国在钛媒体微信公开课【钛坦白】上的分享。
以下根据高志国在微信公开课的分享实录整理:
大家好,我是来自联想集团超融合事业部的产品副总裁高志国。说到超融合,我先讲一下联想为什么把超融合作为我们整个公司的战略去推。
超融合:从传统IT到新IT转型的产物
超融合是一个传统IT向新IT转型的新兴产物,其实任何一个创新在大公司里面都是很难存活的,所以说我们采取的创新机制是由单个公司出来专门从事超融合,超融合本质也是一个传统IT架构从硬件向软件转型的核心产品。
有一句话说“需要研究历史,学习历史,然后才能创造历史”。在这里我们看一下基础设施,在过去发生了什么样的变化:
● 1998年出现了VMware,它的出现实际上是一个重大的变革,使得人们对CPU的复杂性和计算复杂性做了屏蔽。
● 2002年谷歌发表了一篇文章,讲他用分布式的方法来做File System,因为谷歌在他自身的发展过程中,遇到了一个巨大的技术挑战,没有一家公司的成熟产品可以满足谷歌的业务需求,所以谷歌在这种窘境下产生了创新。谷歌的创新实际上就诞生了谷歌File System,由于谷歌在工程上对分布式技术的实现,所以说引发了一个巨大的产业发展。
● 2005年亚马逊这家公司诞生了,他以传统的服务方式改变了所有IT交付模式。所以说谷歌、亚马逊以及VMware等公司推动了整个云计算的变化。
2017年到底会发生什么样的改变,这是需要我们考虑和思考的一个问题。但上面的事例告诉我们,
其实每隔几年从IT交付模式、IT技术,以及IT的使用习惯都会发生一个巨大的变化。在这个过程中,CIO们在想什么?
过去的IT我们称为叫Mode 1 IT,而今年我们联想推出了双态IT。
稳态IT:发火箭的模式
第一个态我们叫稳态,这种过程中的IT实施交付是可预测的过程,过去我们整个IT的交付过程都要做容量规划、性能规划,就像发火箭,就是定好了轨道,定好了终点,一点按纽就按照轨道去走了,实际上今天这个互联网时代,整个公司的业务变革其实不取决于自己,可能取决于我们的竞争对手。在这样的时代之下,实际上我们的IT更加适应于业务的需求和从过去支撑业务需求变成驱动业务的创新。这是很多今天的CIO所考虑的一个问题,这也是现在所说的很多数字化转型的核心问题,那我们叫Mode 2。
敏态IT:开汽车的模式
敏态IT的具体核心特点是,我们假设整个的变化和外界的变化实际上是不可预测的,我们是一种探索型的快速试错、快速迭代的方法来迭代IT系统,因为一个IT系统的架构的演进实际上不是彻底架构,而是整个演进过来的。如何可以演进出我们所需要的IT架构?这是我们所有CIO考虑的一个问题。这第二种模式也被我们比喻成开汽车,我们知道可能要去到一个终点,但是在开的过程中可能会出现一些拐弯、红灯这样的事情,所以说我们就考虑在这种时代下,我们如何为用户提供一个灵活、可扩展、随需应变、on demand的系统,概念和云计算的概念实际上是不谋而合的。
这实际上是我们的一个思考过程,互联网时代的IT转型到底需要一个什么样的东西?传统IT实际上是一种支撑业务为核心,产品加项目的交付模型,衡量传统IT的手段很简单,就是成本优化。所以很多CIO做的事情就是说“我今年又省钱了”,这是他一个考核指标。
实际上在“互联网+”或者数字化时代,我们称之为创新IT。那么创新IT实际上本质是以驱动业务变革和创新为核心,整个的过程和交付模型是一种平台+服务的交付模型,是希望IT来提升整体的业务价值,而且使业务价值可以被衡量,这是我们今天在新时代对IT的一个需求。
IT转型的挑战
这幅图展示的是一个经典的Pace Layer的方法论,实际上在任何公司做IT的管理、治理和IT的规划设计,都应该遵循这样的方法论。这张图具体讲的什么呢?传统的IT更像左边这样的正三角,假设把IT系统分三层:
● 传统的记录系统叫SOR,就所有的公司法务、人事,包括后勤,包括税务可能都是这样的系统,这层系统支撑了公司的运营,要稳定可靠,我们也叫SOR。
● 中间这一层SOD是说,为了区分于其他的客户,其他的竞争对手,我们如何差异化我们自己。这里举一个例子,譬如说像戴尔这样的公司,也是做笔记本的,联想也是做笔记本。那么联想在供应链上如何区别于我们的竞争对手和我们的友商呢?那就需要一个像SOR,SOD这样的系统进行区分化,这一层实际上主要是我们企业区分于友商的一个东西。
● 最上面一层SOI,实际上我们叫创新系统,这层系统都包括什么东西呢?任何公司今天都在讲叫以用户为核心,那到底以什么和用户产生互动呢?实际上大多都在做用户交互这块,所以这块我们叫创新系统,比如说网络的产品论坛,比如说像小米这样的公司出现了以客户做他产品经理的模型。
实际上传统的IT更注重于做SOR(记录系统),因为它是以可靠、稳定为追求核心的,那么IT的核心就是为了支撑业务的发展,这种情况带来的问题是:交付时间比较长,并且需要很好的衡量收益比,反映速度非常非常慢。
今天的创新型IT实际上更像右边的这个系统,主要做SOI这部分,就是说大量的工作实际上是做与用户沟通和用户互动,包括我们今天的互联网、大数据、现在很流行的AI实际上都是为了更好理解我们客户,为我们客户服务。在这块实际上我们采取方法论一般都是DevOps这样的敏捷方法论,快速迭代,快速失败,然后以满足真正的客户为核心追求点。
这样的IT更多是促进企业内的业务变革和业务创新,驱动业务创新, CIO的角色和过去以运维为核心的CIO角色实际上是不一样的。
在这两种系统中,因为从我们信息化时代向数字化时代转型,那就面临两种系统之间需要有共存的过程,如何用一套架构可以支撑这样两种系统,是我们一直思考的问题。
新IT的需求和技术驱动力
在互联网时代、数字化时代,实际上有很多创新的点可以去做。比如现在的IOT(物联网技术)、“互联网+”的应用,就刚才讲的SOI这一层可以跟用户增加互动,大数据的部分以及以DevOps这样新的方法论进行新的快速系统应用迭代,这种都对我们的IT产生了很多新的需求。那我们怎么样去满足这样新的需求?
刚才讲了业务方面的需求,那么现在讲一下技术方面的驱动力。实际上在技术层面,今年Intel CPU的核是越来越多了,内存现在越来越大了,网络从过去的千兆网络变到万兆网络。未来是以25G和100G为核心的网络。另外存储介质从机械硬盘变到SSD,而且SSD的价格不断的下降,在这种新的技术驱动之下,我们如何让一个新的架构同时借助新的技术力量满足我们对业务的需求呢?
上图是IT基础架构的演进过程,我们可以发现,每隔十年会有一个大的IT基础架构的变化:
● 1996年:“烟囱式”架构
在1996年的时候,那个时候实际上都是以服务器存储孤立地形成一个个烟囱式的架构,每个服务器都会配它的存储或者网络。
● 2006年:虚拟化的出现
到2006年的时候,实际上VMware这样的虚拟化就出来了。虚拟化的出现让大家只关注于怎么样做高可用架构,而对CPU和计算的复杂性就得到彻底的屏蔽,实际上这个时候存储依然是一个核心热点,存储很难被水平扩展,如何解决存储水平扩展的问题和屏蔽存储的专业性和复杂性呢?
● 2016年:超融合技术的诞生
我们讲的超融合,它是因互联网而生,为企业级而来。
为什么为互联网而来呢?实际上这里面的技术包括分布式存储的技术、横向扩展的技术、软硬件定义技术,以及通过通用服务器作为硬件机座,这些最佳实践都来自于互联网公司,如谷歌、Facebook和亚马逊的最佳实践。
为什么为企业级而来呢?因为今天全世界90%以上的X86服务器都是需要做虚拟化,大家都在想,如何针对虚拟化这种场景用一个比较好的存储来为他服务,然后将三种孤立设备统一运维,并且通过软件定义的方式集成在一块,这就是今天我们的超融合。
超融合本质上是个新兴的技术架构,它将计算、存储和网络的功能采用软硬件定义的方式集中在单一设备中。通过软件充分发挥硬件的性能,所以超融合本质就是一个云的架构,我们这里用一句话来总结:
超融合就是虚拟化的经典架构,私有云的最佳实践。所以很多客户问我们说,他们如何建一朵私有云?如何快速来构建他新兴的技术架构?其实答案很简单,就是用超融合。
超融合架构什么样?
讲了这么多历史,讲了这么多超融合架构,那么到底超融合架构是什么样的东西,为什么是对集中式存储的一个挑战?实际上这里面就是一个超融合的经典架构。
这个图左边大家可以看到,过去构建一个基础设施之后需要横向扩展的服务器,所以在这个时代,刀片服务器非常吃香。下面是挂一个集中式的散存储,这样就构成了一个企业的三层经典架构。
但我们发现一个问题,当一个企业系统,计算和存储同时需要扩展的时候,当无限的计算资源加进来的时候,存储就成为了瓶颈,没法被扩。大家再想一个问题,谷歌、Facebook这样的公司可以去构建他的分布式系统,在企业里面这件事情是不是可行的呢?
在企业里面这件事是可以的,但是在企业的负载和互联网的负载实际上是不一样的。那么你看互联网做一个很大的机群甚至做几千个几百个都可以做,但在企业里面实际上你搭到这样大的机群并不是特别容易,这是为什么呢?因为企业里面的负载是多种多样的,而且每一个负载所占有的资源并不是很多,拿联想举例,联想全球一共有大概350多个这样的应用系统,每个应用系统负载实际上都是不一样的,有些是对IO要求高的,有些对内存要求比较大,有些对计算资源比较大,所以说这样不同的负载在一个机群里面去运行,难度就远远超过了互联网公司那样的一个大机群。
那么我们看一下整个超融合架构,刚才讲了左边是一个三层经典架构,那么超融合实际上就是在传统标准的机架式服务器上,插入一层我们软件定义的存储和虚拟化,然后将所有服务器里面的SSD和HDD组成一个统一的存储池,然后来服务于上面的虚拟化部分,这样在一个服务器里面既有存储又有计算,实现了计算和存储的整合。
● 虚拟化存储的特性
这个存储和我们所讲的传统server上又不一样,这个存储实际上是针对了虚拟化来做的一个优化存储。先简单提一下为什么虚拟化所需要的存储和数据库所需要的存储有不同的特性。
第一、访问的局部性。实际上虚拟机在访问存储的过程中,有很强的局部性,每一台虚拟机所访问的存储实际上都是应该来自于这台宿主的物理机,我们可以做优化。因为从整个时延角度来讲,访问本地的内存最快,其次是访问本地的SSD,然后通过万兆网卡访问远程的SSD,最后最慢的是访问本地的机械式硬盘,所以说第一个在虚拟化里面,我们要保证它访问的局部性。
第二、迁移的延续性。实际上为了保证高可用性,虚拟机会从一台物理机迁移到其他的物理机。那么在迁移的过程中,我们如何保证下面的存储仍然是可以延续性地为上面的虚拟化服务呢?其次还要保证在迁移过去之后,数据访问依然是有局部性的,这样的话就导致我们的存储需要根据上面应用情况的变化来进行下面数据块主动的迁移,所以说超融合里面的存储是一个面向虚拟化特别优化的storage,和普通的SDS,ServerSAN是不一样的。
今天市场上存在很多客户,拿Ceph 或者GlusterFS或者是lustre这样的集群文件系统改装之后去做超融合的存储,这可以不可以?答案是:在功能上可以实现,但是在性能上和访问的局部性上是做不到的,这样就导致这种存储在支持很大的一个集群的过程中,会出现很多的瓶颈,因为存储本质上还是为一个共享存储来使用的。
第三、物理与化学的变化。为什么要做计算和存储的整合,有一个好处是:用一个软件把所有的存储都放到一个存储池里面可以被上面来调用,这样就减少了一个SAN的设备,这是一个物理的变化,那么化学变化到底在什么地方?其实化学变化就是对虚拟化层的一些操作做一些卸载。比如说虚拟机的快照和克隆,通常在VM这一层Hypervisor以上,可以做它的快照和克隆,但是实际上我们会想到一个问题,快照和克隆本身就是存储所具有的特性,所以如何在存储层把虚拟化层的东西off-load掉,因为越在底层做代价越小,这是超融合所做的第三件事情。
● 传统架构的好处
刚才我们讲了超融合架构的一些好处,诸如说软件定义,水平扩展,然后对虚拟化层做的优化。那么到底传统的架构和超融合架构相比之后,传统架构到底有没有好处?我认为传统架构是有它的好处的,因为很多情况下,用户对于一个系统的扩容包括两部分,
第一个是对容量扩容的需求。我们叫scale up,这时候像传统存储以两个控制器为核心,扩展容量的时候直接加磁盘就可以。
另外一个是用户能对整个性能做扩展。超融合架构的问题是:在扩展的时候是以一个节点一个节点增加。如何为超融合提供一个同时能水平方向扩展,又能垂直方向扩展的方案?这就是我们思考的另外一个问题:如何兼具有传统架构的优势和新架构的优势来打造我们新型的产品?
● 超融合本质
1、技术架构变化。刚才讲了超融合的好处:简单易用、高性能、水平扩展、随需应变,所以说超融合的本质还是希望客户真正聚焦于业务的创新,而把基础设施的事情全部交给厂商来做,这就是我们在超融合的一个核心价值。
2、改变传统IT交付模式。另外一点,我们思考超融合到底是一个什么东西,实际上它颠覆了过去的IT交付模式。咱们来看过去的网络系统的交付,实际上Cisco最早把路由器软件和一个硬件装在一个盒子里面,对用户只暴露他的配置功能。今天我们IT人一直在想一个问题:IT的交付能不能像网络交付标准化这样简单?超融合实际上是带来了这样一个好处,他改变了过去传统的IT交付模式,使我们的IT交付像通信交付系统一样,网络交付系统一样标准化。
那么,这么一款产品是怎么样做出来的?其实联想花了大概有八年的时间来打造这样的产品,只是在七八年之前,我们并不知道这个东西叫超融合,那个时候我们就有个简单和朴素的想法,就是希望把今天的IT简化,希望用户管理的东西就是用户真正关心的,那就是虚拟机,所以说我们大概过去的时间获得了70多项全球发明专利,连续三年国家工信部可信认证,也是联想IT严格认证,所以我们获得了这样的很多的认证和口碑。
今天看来,超融合已经是一个非常成熟和稳定的产品了,在教育行业里面,我们和很多ISA合作,做智慧教育解决方案,做教育的桌面云。在企业里面广泛的应用于自开发系统和商业套件,包括Oracle商业套件,包括微软商业套件。在医疗领域我们做一些智慧医疗解决方案。在政府方面,很多政府拿超融合去构建政务云,因为超融合就是构建云的一块最好的砖头。联想的超融合实际上是说重塑了IT基础设施,靠谱、神速、省心。