作者: 任斐菲 / 日期:2015-10-19
万众瞩目的阿里云栖大会,不只有马云的演讲最火爆,ITValue联合主办的企业级互联网架构论坛里不仅座无虚席,更是“站无虚席”。没能去现场、没能看直播的小伙伴儿都不用遗憾了,一起来看看ITValue为你整理的精彩演讲吧。
常用淘宝的人也许会发现,当你打开淘宝的页面,每个人得到的推荐商品并不相同,这被业界称为千人千面的个性化营销体系,在这背后,是阿里巴巴对于用户大数据的深度运营。负责阿里个性化平台的技术专家魏虎详细解读了实现这种针对用户个性化推荐的营销体系背后的算法快速迭代的场景化平台,这个场景化平台支撑的导购效率提高,正是导致你在淘宝上不知不觉越买越多的关键原因。而这背后有一套复杂的技术和数据运营体系在支撑。
以下为魏虎演讲全文,经ITValue整理:
魏虎:我给大家来简单介绍阿里在传统电商这一块怎么做进去的,后面有什么样的平台支撑,支撑整个阿里云。
先做一下自我介绍,我2005年加入淘宝,2006年的时候那时候没有第一的概念,当时也是在淘宝账户,也是参与过、主导过整个淘宝重大的战略的收集。近五年开始做大数据方向,目前主要是负责整个阿里的个性化平台,包括我们为商家做的整个CM的数据平台。
接下来我会从四个方面来讲一讲阿里大数据的推进和营销平台。
1
用户个性化购物的背后是阿里对流量的精细化运营
先讲一下我们这个平台的背景。
电商行业里面大家知道的都是我们消费者去购物的环节,当然我们这些流量,其实人口的红利到公司的流量红利,已经不像以前那样爆发式增长了,流量怎么样精细化的去运营,这是我们现在迫切需要解决的问题,个性化的用户需求会越来越多。再一个我们阿里其实有很多BO,淘宝、天猫、聚划算、阿里十多个BO,每个BO业务发展参差不齐,那每个BO做自己的,他的技术的标准、技术的架构都不统一,配到一个统一的标准。第三个问题,其实我们在做大数据这块最重要的一个问题,在IT里面叫数据,在DT里面我们叫分享,需要特征,这些特征里面没有统一的标准,也导致开发效果下降。第四个问题,每个团队有自己的做法,做他自己的大数据,好的模型怎么去复用,显然是没有办法。我们这个平台也是提供这样的能力,我们推荐几个方案能够复用起来。
刚才说到这四个问题,我们平台有一个定位,它其实是业务场景算好了数据的平台,把我们的推荐、营销、所需要的服务产品化和主页化,能够让我们的业务开发低成本,快速的实施自己的算法,并且验证自己的算法,同时能够让我们的业务方、我们的产品经理能运营,能够快速去上线我们的主题方案。
这个平台,在内部来讲是两大客户,一个是我们的算法中心,做二次开发,做了算法的解决方案。第二个就是在这个平台上使用我们的算法,这个平台实际上是让我们内部的业务中心和我们内部的开发中心、算法中心有机的结合运营。这个平台从这三层深层的结构来讲,他是包括上面的Paas和Saas,对我们的算法开发中心是Paas平台,因为他二次的算法开发,包括用户的开发。对于运营和产品运营来说,是Saas的角色,在这个角色上他只要去挂自己的决断,找到自己的决断,去运用到自己的决断,就可以简单的上线。前面讲到的平台的背景,尽量发展这个平台,再是阿里在我们整个电商领域和自身的业务带来的价值。
先说一下我们这个平台解决了这个大的背景。像刚才讲多在我们这个淘宝,在我们这个电商,无论是天猫还是聚划算,有太多的商品,现在我们有数十亿的商品,有千万的卖家,那我们一个用户到我们这个淘宝或者到我们手机,打开手机淘宝,怎么让用户能够去快速的找到商品,其实对用户来讲是一个信息的扩展,怎么样去筛选我们有效的用户,这个屏幕,可能一个屏幕最多只能装十个商品,那怎么样这十个商品快速的让你能够有兴趣点,针对消费者来说这是一个个人平台。
2
一个支撑算法快速迭代的业务场景平台才是导购效率提升的关键
再一个针对平台,对我们阿里这个平台,电商的这个平台来讲,我这个页面是展示PV,怎么一次展示PV是需要消耗不同的价值的,比如说消耗我们供电的主板,消耗我们供电的存储,这些实际上都是有成本的。如何让导购效率最大化,让PV带来更多的成交转换,这对平台的利益是非常有价值的。基于这样的背景,我们平台是解决这两个问题而诞生的。这个平台自身的业务类型,基本上现在无处不在,主要的是分成这三个,一个是推荐,再一个就是个性化的排序,最后是榜单,这个榜单其实不像我们简单说的个人榜单,这个榜单更多的是基于大数据优化的榜单。那这是这个平台我们支持的业务类型,这种业务类型其实我接下来讲的基本上涵盖了我们用户所能看到的所有的页面。
那这个平台在里面起到什么作用。有了这个平台让我们的算法迭代更新,从原来平均需要一周多,到只要半天时间就能迭代商品一百种算法,这是因为有了这个效果的提升,使得我们的算法不断的更新,我们的导购效率不断的提升,这是数据化运营非常重要的,如果数据化运营里面你的基础设施不是足够的灵活,那我觉得这个导购效率也是属于空谈。再一个有了这样的平台,当个性化的业务无处不在,业务半天就能算一个算法,半天我就能提交一个场景,我可以在短短时间内让我们页面所有的量都具有一定的能力,所以这是平台带来的让所有的业务能做到无处不在。
这个平台现在支撑的一些场景支撑了整个电商领域1000家以上的商品,即所有的产品就是在我们的页面上或我们的手机上看到一些豆腐块或者音乐触键。大家可以看到我们的淘宝向储物技能和购物技能,比如说商品详细链接,或者购物车。当你进入这个购物车之后,给你推荐一些菜系。当然进入商品详细链接之后,给你推荐的搭配得相似或者相关的这种推荐。那么像有一些市场,有很多个性化的排序,另外首页上包括我们的内部的各项排序,包括我们文字的个性化的标亮。手机淘宝上个性化也是无处不在。
另外像O2O里面的一些场景,保证淘宝买卖、天猫,那其他应用比如说数字娱乐、ICPU聚划算,很多业务的场景都是在这个平台上。所以可想而知这个平台自身的业务量之大,目前这个平台支撑了4000个产品,包括我们16个商网团队,每天有50亿以上的调动。但货币支撑的服务调动是摆动式的。
当你用手机淘宝时是如何不知不觉的越买越多的
第二,我讲一下手淘。我们以手淘为例来给大家直观地演示一下我们大数据应用的场景。打开手淘,我们看到这些屏幕上的这些图片,这些图片每个人打开可能都是不一样的。为什么做成这样的?其实我们打开手淘我们希望快速地信息公布,那么这第一批的图片是非常抢眼的一个信息。如果这张图片抓住了这个用户的心事,他马上就会点,会引导他的成交。因此,通过这种个性化的图其实对手淘的点击打开转换是非常大的一个提升。再打开手淘再往下看,点击精品导购,下面这些导购类的列表,其实每个人看到的是不一样的。这里面有很多的因素。除了说服,对激发起用户的兴致,更重要的是我们的导购文章每天有数万篇、数十万篇这样的体量。如果每个人都看到一样的,或者你通过这种随机或者轮播,那我想导购的文章被浏览的可能性是非常小的。所以这个对平台的价值是非常大的。
再往下看,就是我们频道,比如说天天特价,我点过去之后,这一块也是根据你之前的浏览行为和你的购物行为来做一些商品的筛选。然后再往下去,我们的行业市场点过去之后,一些商品的展示也是跟我们的大数据推荐的状况符合的。再往下翻,就是我们根据你之前的过往行为包括你单纯的浏览行为来去推荐你可能感兴趣的店铺。推荐完店铺之后就是我们推商品。我们直接的商品的导购,我们淘宝有数十亿的商品,那怎么让我们这个这么小的手机屏幕能够快速地让你有点的欲望?那这里面非常多的是推荐专码。当然我们每个店铺的详细页面和店铺页面的商品也是根据你的偏好来去做的。整个店铺的商品个性化的排序。那这是刚才说的商品,商品之间的一些相似商品、相关商品。
我们刚才说到现在流量红利已经没有以前这么有价值了。其实对于一个商品来说,一个用户到了你的店铺,它非常希望这个用户能够留下来的。但有可能这个用户到了当前这个商品他不留下来,但是有这个相关的商品对这个用户来讲也是非常大的吸引。通过模块的这种加载对店铺的流程率支撑得非常大。这就是购物车,当你进入购物车的时候,下面会根据你的购物车之间的商品来做一些连接搭配。前面就以手淘为案例我们讲了阿里大数据的应用,可以看到基本上我们整个手淘你所能看到的跟你交互的页面,这里面很大一个东西就是我们这个平台来支撑这个业务。
3
商网要做的事情是创建场景、制定方案、分析数据和建模
简单讲一下我们平台的功能。其实这个平台最重要的是有两个角色。一个是产品运营,他们负责的是业务,负责运维比如手淘的某一块区块,这个是我们的产品,他们用的这个频道。第二个角色就是我们的商网,他们接了频道后,他们就去做他们的开发,对我们的产品来说,他其实只要做两件事情。第一件事情就是创建产品,第二个事情就是拍一个场景去关连到这个平台上已有的数据。这个场景能够直接上线到我们现在个性化的场景。对于我们网商要做什么事情。他要做的就是在平台上做我们模型的建固,做我们特色的继续。同时在这个平台上他要做他的方案开发。开发完了之后,他把整个方案发布到平台上,通过这个平台与我们的运营商进行探讨然后去关联到它的产品中去。有了这个平台,实际上让我们的合作机制、运营和算法的机制变成一种系统化地、数据化地协作。
这个平台功能上包括四大块:场景、方案、数据和建模。刚才说了场景,场景就是我们业务员去维护场景、去创建场景。场景其实这里面包括一些基本性的产品无论是手淘上还是PC淘宝上还是ICPU的聚划算的页面上一些简单的描述。那创建网商就会对他的方案进行量身订作一个方案,同时它也可以对部门方案做一个AP的结单取得最好的方案。当然有部分方案带来的效果,当然我们的点击率、转化率、成交量这种最核心的数据指标这是一个非常值得关注的。
接下来开发部分。注意我们这个平台主要有几个流程,刚才说了一个变形在线方案,它通过IPE然后去下载我们的代码,每个代码有一样的接口,然后它进入这个接口就开始开发。同时我们有很多技术上的服务。它继续这个服务和他的业务规则。对于模型和建模这一块,我们有一个建模平台,它可能平台上通过多转的方式去做数据的预处理包括这个模型的预测。当然也可以更高接点,我做实时的用户的预测。这就是我们商网在这个平台上可以创建方案、开发代码、方案发布。
这个平台上会有数据中心。这个数据中心是什么概念?比如说做一个产品的时候,这个业务上我们需要用户的数据,比如用户的特征、用户访问的记录、用户浏览的商品数据。这些数据我们通过这种标准的SKI码即标准的原数据概念让这个数据可以可复用、可被利用。当然讲到以前没有这个平台之前,用户在做他的用户、代码后,我也不知道他有什么特征。这个特征是个数据,它的含义是什么这都是无法知道的。有了这个标准化之后,我们的商网就可以做最大的开发客户,对数据的管理第一能做到非常体系化的管理,第二能够做到数据的复用。再一个就是我们的特征。特征这里是讲了更多的是我们PC里面的概念。我们一线里面有特征的聚合、特征的清洗,包括特征里面放了模型进去。这些特征也是为了做储用。我们每个团队有它自己的特征户,但每个团队做特征可以拿来去互用。最后就是把整个一线的预测、训练、沟通过程用模板的方式把它搭建起来。那像以前基本上是要用代码,写一些代码去做,那有这样的建模平台可以让这种流程变得可以复用。
4
实现个性化平台的技术架构
最后简单介绍一下整个平台的技术架构。平台架构简单来讲分成三部分,存储、连接、使用。那对于存储来讲,就下面这部分包括我们阿里的一些基础的主件、包括我们中间提供的一些基础的消音热键,再一个就是在模型这一块我们主要是用内部的像,当然我们内部也有PS这样的一个流程的计算。再上面这个连接技术就是我们推荐营销平台服务,加载了我们业务的代码,然后做AP的分流,包括我们的监控、管理,包括我们整个机器的运营。再接下来就是我们使用方。包括营销就业系统、包括我们的CM系统、包括前面的各个业务的系统都通过这种方式来调动。
这个平台提供了和谐能力,上面一排其实就是我们数据方面的能力,包括我们有一线的建模,实时的建模或在线的预测,还包括这个特定模板。其实我们在阿里大数据里面从2009年、2010年开始到现在大概有五六年的时间。从最早的一线预算到这个时侯,发展也是经过一个个阶段过来的。这个平台已经具备了战略上的一线建模能力,也可以在这个平台上去用比较高大上实时的能力。
下面这一块是IT基础设施。比如说这个是我们的商网基于我们平台去做它的二次开发。我们要求主件包括我们的流程这个都是要提供给这些开发者。我们每天有几十个亿的调动量,每个业务的情况不一样,我们要保证每个业务之间不要相互影响,同时也要保证我的产品能够自动地过。那这是IT方面的技术能力。包括这个存储备份,当时我们的很多数据都存在流失,包括搜狗引擎、包括检索引擎、这些存储的技术怎么做。对于我们从阿里进行交易的问题,我们要保证99.%后面多少个9的情况这里面都是IT技术测试要做的事情。可视化就是我们前面提到的整个平台的可视化的升级都是平台提供IT支持。简单介绍一下针对刚才的成像有一部分的基础平台,在这一层就是我们模型的过程,有我们实时建模的过程,有我们一线的建模的过程,那这些用途都是可以通过可视化来做的。第三个就是我们的数据中心在线需要访问这些数据的用户商品,再者就是我们在线服务,对于这些数据我们要提供给我们的前端容器访问。这里包括访问稳定性,包括异构数据的一致性。
下面就是我们推荐容器我们所有代理的产品,这个容器要保证IT的能力,它有很强大的管理后台和监控信息。这是讲一下整个系统的流程,我们看到刚才说的手淘、我们的PC无线通过几年过来经过这样一个容器,通过这个容器做我们的分流。那么容器里面其实要交互两个,一个是我们的数据中心、一个是我们的实时预测中心。这一块就跟DT相关了。我们商品通过来做个性化的排序都是要我这个平台去做。
那么这个数据中心分成两部分、两个交互。一个是实时用户的变更,你看还有T+1、T+2这种一线的变更,那我这个模型这一块刚才说的也包括两块。一块是我能够做一线模型的更新,第二块就是在线模型的更新。最后是我们整个平台有两块。一个是我们后台管理上整个运营去做产品的编辑,包括AP分流的配置,都是我这个后台管理来做的。那这个监控也必不可少。我们现在管理的数千台机器,那这几台机器的自动化应该怎么做这是一个非常重要的模块。
然后这个内部的平台我们现在也正在包装目前准备也是即将发布出来。刚才提到的这个平台也会用基础的营销额推荐开发构建,提供可视化的推荐,推荐营销来编排流程,然后也会提供同类数据和产品的管理。刚才提到它对应的是阿里,绝大多数的消费者能看到的页面都能在这个平台上访问,这个就是我介绍的这个平台的内容。(本文由ITValue记者任斐菲根据阿里巴巴技术专家魏虎在云栖大会企业级互联网架构分论坛的演讲内容整理而成,未经本人确认。)