ITValue社区

信息爆炸后,如何收拾大数据残局?┃转型方法论

作者:吴宁川 / 日期:2016-04-14

随着云计算在2008年前后的兴起,DevOps开发者文化盛行一时,加上近年来企业加速向互联网转型,造成开发者文件激增。云计算又促使了商业模式的巨大变革,大量的公司并购、合并、裁员以及创业公司的兴起,导致人员流动加剧、“遗留”数据暴涨。此外,随着智能手机的兴起,视频与图像文件的爆发,也成为企业的沉重负担。

一份由信息管理解决方案商VeritasTechnologies日前发布的公益性报告《数据基因指数》(DataGenomics Index)称,开发者文件是当前全球企业数据环境中数量最多的文件类型,占整体文件总量的20.13%及存储总量的9.17%。该报告还指出,当员工职位变更或离职后,其遗留的文件往往成为孤立数据,不仅造成安全隐患而且长期耗费企业存储成本。

开发者文件、未知文件(包括孤立数据)和图像文件已经成为企业转型的数据残局主体。《数据基因指数》称,过去三年中有41%的企业数据从未被修改过。现在,企业越来越“养不起”数据了。

企业转型的迷茫与失控

当前企业IT基础架构发生了重大改变,这种改变已经深入到企业的日常运营中。特别在国内大力发展互联网+、企业着重向互联网转型,互联网技术全面渗透到了传统企业IT中,“软件定义”的概念铺天盖地,“这让大多数企业对IT整体环境感到既兴奋又迷茫”。


41%企业数据文件在过去三年都无人访问过

Veritas公司大中华区技术支持部高级总监李刚分享了这两年接触国内企业的情况:
“企业不了解如何实现软件定义,不清楚如何在IT规划中构建混合云模式,不明白要怎样应用知识储备和技能储备来应对挑战,也不知道什么样的合作伙伴能够帮助企业发展。”
这些问题如今都尖锐地摆在CIO和IT主管面前,让企业感到迷茫。

而企业感到兴奋的原因在于,他们又看到了IT驱动业务成功的案例。“这种兴奋与迷茫,使企业产生了无力感和失控感。”

一方面,企业正在经历行业转型,另一方面又无力掌控企业IT的发展方向。与此同时,业务部门和企业高层对IT的期望越来越高,而IT管理者对IT方向的把握和管控能力却越来越弱,这是当前很多中国企业的普遍状态。

“我们在与客户交流中发现,企业IT管理者始终通过基础架构来管控IT。基础架构是过去企业IT建设过程中最能够掌控的部分。而‘软件定义’后,所有的硬件变成了‘大宗商品’。混合云时代,企业的应用程序可以在‘云’中来回漂移。因此,企业的失控,实际上是对IT基础架构管控层面的失控。”

李刚表示,Veritas认为企业需要转换思路,不应该执着于IT基础架构,而应该更多关注数据本身。未来的企业都将是软件企业和数据企业,所以,企业IT决策者们真正应该关注的是对数据的管控。企业IT如果要重新掌控核心能力,就应该加强数据掌控,数据才是企业的核心资产。

如何转换数据管理思维?

Veritas服务于全球5万多家企业的信息与数据管理需求,其中86%的企业为全球财富500强。《数据基因指数》是Veritas自1989年成立以来,首次通过对数百亿文件深入分析而得。这份报告的起因,正是企业近年来数据大爆炸与有限存储资源之间矛盾直接导致的产物。

2012年的一项Gartner研究称,企业存储1PB数据的成本在500万美元左右。近几年随着技术的发展这一成本可降至50万美元左右,而目前1PB数据在云上一年的存储成本最低也在250万到300万人民币之间。大数据还没来得及产生价值,就已经成为企业的大负担,而且数据还在不断增长中。Veritas首席信息治理专家徐晨说,他曾遇到刚成立的公司,总存储空间只有几个TB,但业务部门上来便提出PB级的需求。

企业的数据在不断膨胀,如何尽早转换数据管理思维?李刚认为这有几个前提。首先要关注数据可用性,企业要能够随时随地访问所需数据;其次是数据的生命周期管理,企业需要有完整工具来完成数据的生成、处理、归档、删除、销毁等一系列步骤;第三是要关注数据的复用和挖掘;最后是制定对不同云环境的数据访问策略。

针对数据存储环境的变化,李刚认为如今处于混合云环境中的企业数据分散存储在私有云以及不同的公有云中,这种复杂的环境对数据管理构成了极大的挑战。实际上,由于IT的云化和虚拟化后,数据并不固定存在,企业关心的是随时访问数据,而不是具体存储位置,这带来了全新的观点。

从了解数据基因入手

为了“收拾”数据残局,需要对数据有本质上的认识与了解,这就是《数据基因指数》的目的与意义所在。任何企业、行业专家、咨询人员、终端用户、技术人员以及其他相关人士,都可以通过datagenomicsproject.org了解全球企业的数据基因。

根据首份《数据基因指数》报告,企业创建数据的增长速度非常快,年均增长率达到39%。而且企业在不同季节的数据增长情况各不相同:超过68%的视频文件创建于夏天,这有可能是因为员工把度假视频放在了企业服务器上;很多企业都实施了年度备份政策,所以10月、11月、12月的备份数据增长率大幅提升达756%。


当前企业的整体数据环境

而根据合规要求,数据通常在3年后会从“可能相关”变为“过期”状态。在企业中,平均41%的企业数据已经过期,或者是连续3年没有任何用户进行过修改操作。此外,孤立数据占企业整个数据环境的5%,不仅占比非常大,而且很容易成为过期数据。孤立数据多为内容丰富的文件类型,如视频、图片和演示文稿等。

《数据基因指数》指出,演示文稿、电子表格和文档等传统Office格式文件所占据的空间远远超出合理值,为企业造成不必要的成本负担,视频和图片等视觉格式文件也是企业的另一负担。以10PB为普通环境举例,如果展开专门处理过期演示文稿、文档、电子表格和文本文件的归档项目,能为企业每年节省大约200万美元的存储成本。

除了Veritas外,另一家企业业务可用性解决方案提供商Veeam Software(卫盟软件)也首次在今年倡导把每年的3月30日定为世界可用性日(WorldAvailability Day)。根据Veeam委托进行的一项最新行业调查,84%的CIO承认无法满足企业员工、客户和合作伙伴对数据可用性的预期,而且每年为此损失达1,600万美元。

目前由于IT基础架构的巨大变化,类似于Veritas这样的数据治理与管理技术专业供应商和Veeam这样的企业业务可用性技术供应商都在市场中有独特的定位与位置,也是企业在转型过程中需要了解的供应商。当然,现在还没有供应商能够整合所有的数据管理及业务可用性工具。Veritas计划推出类似“数据中间件”的产品,整合、协同更多解决方案厂商的产品,帮助企业获得全面的数据掌控能力。

总体来说,大数据爆炸时代,企业需要提前准备好应对“大数据残局”。在制定数据可用性技术、全数据生命周期管理方案、数据利用和数据挖掘以及数据访问策略的前提下,要充分了解和认知企业数据的产生特点、规律和本质,然后选用独特而专业的供应商解决具体的问题,同时注意不同工具之间的兼容性和通用性,致力于最终形成一个“数据中间件”层。

从数据本身出发,重新思考企业的整体IT策略与架构,这是转型期的重要方法论之一。

推荐阅读