作者:ITValue / 日期:2013-09-12
现在热议的大数据可以做的事情很多,但对于企业来说,大数据并不一定是一座金山,它可能是一座垃圾山。数据分析可以给企业提供很多有意思的新业务模式,但做得不好,也同样可能误导企业做出错误的判断。
数据挖掘史上一个最大的骗局是啤酒和尿布的故事,大家都觉得买尿布的人也会买啤酒这个结论是出自于数据挖掘的结果。这里的算法似乎很复杂,但其实上它是一个比较简单的算法,就是在一张购物单里发现两个产品出现的概率最高。这个结论在中国可能不会出现,因为中国的家庭购物以女性为主,大多不会买啤酒,这个结论成立的条件是在美国;男性;有一定的经济能力;刚生了孩子,并且喜欢喝酒. 这些都是数据的维度,发现这个有价值的结果,是把这些条件一一进行剖析的结果。
我们可以试想一下, 如果一个经济压力山大的男人, 这个时候是否还有钱买啤酒? 这里并不是为了抨击数据挖掘, 只是说明挖掘其实也有难易之分, 同时这个案例说明了大数据不一定是做金山,有可能它是一座垃圾山,要从里面发现金子,必须一步步把垃圾剖开。难点是谁能挖到金子?这需要是一种既懂得数据,又是懂业务的有复合能力的人,需要将业务带入到数据剖析过程中,需要将技术传递给业务人员。
作为一家专业做数据的公司,Informatica认为,企业内的数据孤岛现象会一直存在,这来源于企业不断发展业务,开拓市场,这些都需要新的IT系统的支持,新的系统在不断制造新的数据孤岛。而数据被集成之后各种大数据应用才有实现的基础。
数据集成可以帮助企业沟通各种各样的数据,沟通各种各样不同的业务,使数据在企业中流动起来,支持业务当中数据所需的交换,沟通业务当中所需的数据分析。其价值体现在三点:共享、交换和标准。
在中国,很多IT人员都需要并且有能力去做一些跟业务相关的工作,到企业真正沉下心来发展大数据业务的时候,IT人员也需要向数据分析员的角色进行转换。我们也可以说IT承担业务分析员的角色才能真正为企业开启大数据应用。
在《大数据时代》这本书中,一个基本的观点是,在数据领域,相关关系比因果关系更重要;数据量的重要程度也在超越算法的复杂性。其实在所有数据当中,可以通过数据挖掘来解决问题的通常只有20%~30%,甚至更少,这只是冰山一角,真正复杂的、重要的东西是通过数据处理、数据集成或数据质量来解决的。
关注数据的过程是集成的过程而不是挖掘的过程,集成商跟企业内部的IT人员的区别在于对业务的了解程度,关注大数据是关注数据质量或者数据集成的过程而非采到金子的结果。大数据生态就像一个动物园,各种动物都有,却未必人人都可驾驭,或是这种驾驭会需要很高的成本。Informatica为专业的数据处理提供了一个基于图形化开发平台,通过图形化的简单直观的方式来帮助业务人员或IT人员快速的上手使用。这也是整个大数据生态链的一部分,我们提供了数据加工的工具。
大数据一定概念上是使用全量数据的能力和意愿,并不仅仅是数据量的大小的区别。但从目前的应用案例来看,个人认为大数据不是某个特定的技术而是一个思路、想法,它也不是某种特定的架构,但是我相信随着技术的成熟,这个架构会越来越清晰,但当前状态下通过统一架构来解决大数据的问题相对还比较困难。
大数据的第一步是要有数据的思维,第二步是从身边结构化的数据分析开始做起,再下一步就是从可能拿到的跟业务相关的外部数据做起,然后再把复杂的非结构化数据加进来。因此Informatica建议大家从数据集成做起,给企业带来数据思维。
(本文由ITValue周应根据Informatica公司中国区首席技术顾问杜绍森在2013IT价值峰会上的演讲内容整理而成)