阿里云周卫天:数据智能与阿里巴巴和我们

原创
移动开发
2016年11月25日,由51CTO.com主办的WOT2016大数据技术峰会在北京粤财JW万豪酒店召开,50多位来自阿里、腾讯、百度、京东、小米等知名企业的大数据领域资深技术专家齐聚大会现场,将在两天的时间里与逾千名一线IT技术人员直面交流,分享经验。

【51CTO.com原创稿件】2016年11月25日,由51CTO.com主办的WOT2016大数据技术峰会在北京粤财JW万豪酒店召开,50多位来自阿里、腾讯、百度、京东、小米等知名企业的大数据领域资深技术专家齐聚大会现场,将在两天的时间里与逾千名一线IT技术人员直面交流,分享经验。

[[177141]]

在WOT2016大数据技术峰会的主会场,阿里云数据架构部总架构师周卫天做了主题为《数据智能与阿里巴巴和我们》的演讲。以下是他的演讲实录: 

2009年到2010年的时候,马云就开始讲阿里巴巴是一家数据公司,同时2009年、2010年的时候,如果大家去留意一些阿里出版物,马总反复强调阿里要做云计算。今天的云市场其实已经是阿里云占了一定的比例,成为国内云计算不容置疑的老大. 同时也有很多国内其他的厂商,腾讯、百度也都在做云。大数据也是,09年马总讲阿里数据公司的时候, 大洋彼岸2011年Hortonworks才刚刚成立,2009年Cloudera也才有Doug Cutting的加盟。但是回到6、7年前,这就是外星人马总的远见,也就是造就了今天阿里云在国内的一个领导地位。 

再看一下数据创业,阿里的微贷没有零员工的介入,一秒钟获贷,单笔交易的成本是两元。在这背后就是阿里云大数据的处理和关联分析的强大能力。刚刚过去的双十一,大家在网上也都看到了双十一的数据,支付宝的一天总交易10.5万笔, 那是每个中国人在双11人均刷了0.8笔。峰值时候每秒交易12万笔。还有一个非常有意思的数据,是在第一个小时,今年的支付宝交易的总笔数超过了2013年的全天交易量1.88亿笔。每秒12万笔是什么概念呢?2013年14年阿里的主要竞争对手美妙处理月1200-1500笔/秒; 今天也不过是2-3万笔每秒, 阿里支付平台的强大处理能力和客户的喜爱和选择数据已经说明了一切。 

在2009年的时候我也帮忙做淘宝的数据性能优化,但是阿里后面的数据库种类也不一样有Oracle,有GP,还有开源Hadoop,管理成本、运营成本、技术路线,不同技术路线之间内部大家技术人员之间的协调,度非常化时间,大家都是做技术的,很骄傲。 

第二个,也是各种各样的应用都没有打通,本身这些库在不同的集群当中,甚至就是应用数用之间也没有共享。到最后说数据的重复建设,怎么将同一个数据源拖到其他业务部门去用,后面我们会用一个案例来看看阿里怎么解决这个事情。 

到2010、2011年的时候,我们阿里考虑我们要到几十PB,或者几百PB的时候,怎么解决计算能力的问题?能不能解决? 今天来讲,这后面的几百万张数据库表怎么来维护?我们知道传统数据仓库,我们去一个企业,一般是几万张,再大一点的,甚至银行,大一点的行,十几、二十几万张的表。但是几百万张表的数仓怎么去维护?这么大的数据量一旦集中到一个平台上, 数据安全怎么来保证?如果一旦有人把这个数据拿出去之后,怎么去解决? 

阿里的数据智能平台,就是大数据的核心引擎,无非在阿里来说,跟所有大数据一样,有离线分析,有准时分析,有实时流分析,还有存储。左下方有一些开发的套件和工具,我们怎么样来协调不同的部门,尤其当你开发人员有几千个,甚至上万个开发人员的时候怎么协调?有一个统一的IDE开发环境。 

从我来看,以前一直做大数据和今天阿里这个数据智能平台不一样的地方,下面我就讲这三点。 第一块是阿里数据治理这一套方法理论体系和从大项目和百万张表里走出来的实践经验。为什么要讲体系治理?这个治非常好,三点水,就像水一样无所不在。 这涉及到阿里在数据治理方面对它的标签体系、数据质量管理、数据安全,数据计量以及数据资产管理这五个方面, 阿里是怎么来做到今天的整个这么多的业务在统一的一个数据体系内, 有一份数据质量高的数据问题。 

今天的几百万张表,传统的数仓众所周知,一般都是有一个业务的需求,然后会有7到8个业务域, 财务、营销销售、人力资源、事件、供应链等等,然后我们再去根据这来设计我们的数据结构,还有会把表与表之间的关系,等等所有的这些去做好Shema和业务涉及。就是我们讲的传统数仓是根据业务来进行统计分析挖掘,相对比较静态。 

互联网因为发展变化太快,第一是说业务的驱动,野蛮的增长,快速的生长,快速的迭代,不可能这么做。尤其到了百万级这个数据表体量的时候,对阿里来说就是业务需求来快速建一张表,建完表以后,关键的注释需要,重要字段标示标注。在阿里每天在一天结束了,大概有几十台机器就会做一个批处理的分析,把这个表格的一些设计,主要字段和现有大的仓库去比较,相当于阿里是对这几百万张表也有一个数据仓库和数据引擎来进行管理, 来看看今天新增的怎么去分析?这是一个元数据管理采用大数据后台统计分析。 

第二,阿里今天来讲,对元数据里面主要的表, 主要的字段都是有一个标识体系,就是把数据根据业务的重要度和技术的统计,来标4321,4是最最核心最最重要的业务驱动,这个会涉及到后面数据质量的管理。今天来说,阿里数据质量管理是把数据生产的流程完全融合了数据质量监控的实时流程。 

这是一个什么概念呢?就是我这个数据一旦一个流程生产出来, 系统后台我用数据来进行分析,比如讲一个同学交的税,交了三年,前面每年交五千到八千之间,我今年生产出来一个数据,如果一下子一万五了,我们可能就会有个预警,说这个数据分析以后,这个数据质量是不是有问题?启动一个流程进行验证,跟踪和比对。 

根据前面的标,就会对这个来进行追踪。我们内部的体系一般叫黄线和红线,数据质量如果是黄线的话,就要持续的追踪和分析, 直到提升。如果是红线,我们讲一个数据生产可能都会有几个主要的检验点,假如有123对前面讲的标识是4级的数据,最最关键的数据,那就会要涉及一些自动和半自动的流程来进行实时监控。一旦触及红线,数据的生产执行会被强迫停止,这就是数据质量的一个保证技术手段, 很有效。 

前面还提到,数据的计量,今天来说,我们为了简单化,假如后面我们有一百张表,在阿里来说,第一张表到第十张对应到一个责任人,第11到第20张表对应到第二个责任人,对每张表数据的质量都会考核这些责任人。 曾经在2012年,我跟一位老同学聊的时候,也涉及到这样的问题,如果因为后台的数据触发了前面的某些报表统计不准确的时候, 这些表的责任人就会受一定的制度的考核,甚至是惩罚,这是技术工具和安全体系结合的典范。 

今天在阿里开发的主管每周都会收到一份成本单,这个成本单就是说我开发的所有后面基于大数据都是我们的一个工作,都会有计算,你写了SQL脚本或者MR工作,都折算成人均成本。按照人均成本这个礼拜, 你这个组项目成本都会被统计出来。所以阿里本身大数据治理方面是,大家可以看到,所以当有人问到大数据管理还是治理?我说再阿里一定是治理。很多的工具, 尤其从元数据这个层面,数据引擎搜索和自动统计分析,用数据来管理数据这就是阿里大数据的玄妙所在。 

第二个,在这个平台之上,今天阿里在人工智能方面的一些领先工作, 视觉智能、语音智能,后面会有详细的例子讲,再到数据智能 相关的一个要点就是数据的关联打通。我们在G20做的一些工作,就是我们把虚拟网络的,如网上的微博ID,微信Open_ID, 包括各种虚拟网络上帐号的ID怎么跟我实际的手机号码,身份证号码打通?因为数据的关联碰撞才能激发出火花,激发出创新和创造的火花。 

最后还有一块更有意思的就是说天池众智平台, 是我们这个数据智能体系上的一个夜明珠。我们在这平台之上,我们背后有四万多科学家,但是我们拿到的问题, 其实阿里内部本身有很多的科学家,是对这个问题本身的重新定义和梳理、挖掘,分析总结项目目标和特征; 这个也非常非常重要。 

包括最近我们做了一些大交通的事,通过视频,通过高德地图实时的数据,把它结合起来,怎么样在南方的某个城市,使交通拥堵率减少了20%几; 这是互联网+信号灯的创新,已经申请国家专利。 

今天来讲阿里数据智能的体系主要在这三块,数据治理、数据实践这是第一块。第二个,大家后面会看到一些例子,视觉智能、语音智能和数据智能这一块。第三个就是基于众智平台对现在交通,大公安做的一些贡献。 

数据地图简单讲一下,这跟数据资产管理有关。第一个我们要把所有的数据进行规范,数据质量的规范,第二个更主要的是说,让阿里内部的技术人员和业务人员,对数据资产的使用要特别方便,可查询,可追溯。而且要易查询,我们不是说经常用命令行才去找到数据资产,这一块非常重要。说一下数据地图,大家做技术的同学都会碰到数据血缘这个关系,今天阿里内部对数据血缘的溯源,因为对源头和数据末端,最终这个数据处理的这个数据质量和数据标签,阿里也做了非常非常多的工作。SQL侧面已经往前血缘追溯到前面的7/8层,非常强大。 

还有一个数据治理有一个数据加速器,其实是说,基于阿里的数据智能平台,怎么样我用一套体系,用一个全新的模型来快速实现业务。总体来讲,基于这个大数据我们做了一个标签体系,在某些行业,比如说在公安,就是根据这个标签体系,可以大家理解为一个战法库。根据不同的品种,我们去做一个战法库,针对技侦、针对情报、针对网安,这标签体系的灵活和快速使用,和它的归纳总结都不一样。也类似于我们传统基于数据之上的服务和中间件层的一个抽象。 

数据安全。数据安全今天来讲,阿里来讲,其实我们自己现在讲的是5A2P,所谓5A比较简单,我们今天对数据安全,如果能做到5A是一个非常好的事,就是认证鉴权Authentication和Authorization,后面是Access数据控制。用户鉴权到了服务器层, 最后在阿里来说到伏羲盘古,到底层把你基于所有内容的读、写,主要字段的读、写,都会分工得很清楚。 第4个Audit是审计,可追溯,可追踪。第5个A, Assurance就是数据的漂白,数据的加密这些都是。这个今天在阿里来讲数据安全首先做到5A。 

两个P,第一个P是Predict, 就是说我们今天对阿里云的平台和阿里大数据已经从两三年前开始用数据来预测和分析对我网站的主要攻击。我们讲现在对安全问题的一个态势感知,怎么来预防、预测,这是一块很重要的事情。同时还有一个P, Policy,就是我们经常会碰到的,安全的这个策略、政策。这在阿里有四个字,”最小够用“原则。在我们内部的同学和在做项目的过程当中,就是最小够用原则。加上一个时间戳,我们申请数据权限的时候,比如我今天要出来跟伙伴一起分析一些我们的数据,我们申请权限的时候都要有一个时间的限制。比如我这个是一个月,专门有数据生成的安全部门会来对这个进行审查。这个规则甚至是说我这个数据的出口需要有限制,我从哪一个IP地址才能出去你申请的时候会有限制,对出口的统一管控。所以简单来讲,阿里今天对于大数据和云平台的安全其实就是这个5个A和两个P,这当中的内容涉及得非常多。 

阿里登月工程的第一个体会是说,新系统和老系统对接的时候,大家有没有决心花至少三分之一以上的时间来做这个数据质量工作,数据基础平台和服务层的准备工作,实战当中,几乎所有的客户做不到。这也是说,今天其实阿里的业务其实很大了,所有业务在一套大数据平台系统上跑的。有没有这个决心,是说我这个两年又几个个月的一个登月浩瀚工程,我能下定决心花11到12个月的时间,来做号数据的准备工作,做一个数据平台服务层。首先来花几个月的时间,把要进入新系统当中所有原来的数据指标体系规范,源数据的表当中的标识来重新定义。这是值得我们思考的一件事情,也非常有意思的事情。我觉得这个事情其实是说,甚至超过了我们架构的一个范围了。当然还有一些实操性的经验也简单,其实在阿里云梯1到云梯2就两句话,”业务说了算”,”数据统计说了算”。 

业务说了算就是说我业务来决定了我后面这个表当中哪个字段是最重要的, 老系统当中也有很多统计分析数据,我这个数据字段,经常被引用的频率是多少?更新的频率是多少?我们根据折2者的权重来进行一个判断。 

还有一点启示,新老系统的对接,其实我们技术上都不是问题,只是一个成本的问题。我们怎么融合呢?就算阿里来把云梯全部替代的过程,怎么讲呢,是一个要在新系统当中,就是在做这件事情的时候降维。前面提到了把这迁移的过程分成登月的多个项目,最终从这多个项目缩减到两到三个项目。第一个是支付宝,就是说我在做任何新系统的时候,我一定一开始做得小一点,可控一点, 但是一定要让我的技术人员和相关的业务部门,一定要进来把这个新的系统玩转,把新的技术玩熟,把这新的技术和平台跟老系统之间的差异和不同对比清楚。比如说我在这看到的元数据的管理体系,其实完全不一样的,就是数仓,传统数仓跟我这平台是完全不一样的,这是我们得到的第一个启示。 

还有一点非常有意思的启示,这很快提一下,也是实操当中的宝贵经验,在迁移多个项目当中,我相信大家也都看到了,无非就是根据业务的重要性,当时阿里选择这样做,比如业务分成1、2、3级,根据技术对接的难易程度分成两级,综合考虑着两个维度的因素, 我们再根据系统的难易程度和系统的重要性选出更少的项目先做,把它做好,这是一个实操的动作和宝贵经验。 

最后还有一点,开幕式、闭幕式,在做这个两年多的项目过程当中,前面一开始的两三个月的准备工作非常非常重要。第二就是说就算内部阿里自己把项目新老系统切割之后,一定一定要有两到三个月的并行过程,同时技术团队随时随地的伺候,这非常非常重要,这个也是给我们的一点启示。 

简单回顾一下阿里的数据智能之路,其实我们就讲了三点,因为对于这个数据的计算能力,运算能力的强大:其一,还是我强调的数据治理的这一套体系框架以及工具。其二,就是涉及到智能图像,图像识别,语音,语音识别的一些智能,以及众智平台围绕阿里之声的数据做的一些事情。 

前面讲了阿里这么多在内部的一些实践,我们阿里大家知道也开始了一个成长的对外输出的过程。当然其实外面其实有各种各样的声音在阿里输出的过程当中,我坦率地说,我碰到了很多同学说阿里会做2C不会做2B。阿里在数据智能方面,2B和2C领域有一些自己积累的案例、经验和战略思考。 

第一个是G20峰会的安全保障,这里我们给G20做了一个反恐系数,用大数据。简单讲,比如我拿浙江省大概8700万人,从杭州本地,就是接电话、打电话的2200万这么一个规模,跟一些特定地区,500多万的人群进行碰撞。这个概念大概涉及到几万亿条的数据,碰撞一秒钟不到,这里就讲了我们的这个计算能力了,我们大概第一次碰撞出来100多万人。化时间几秒钟。 

经验规则是公安提供的,我们再打一个标签,用VPN的,VPN的大概有30多万人。跟前面碰撞出的135万人快速分析交叉,我得出来大概1.1万人。 好,根据经验规则,这个1.1万人当中,我再加几标签,某某籍贯不好说具体的,某某籍,男性,25到35岁,在杭州有个地方,某一个地方的落脚点,这又是一个标签。 然后是跟叙利亚、土耳其最近的一个月有过通话记录的,五个标签一组合,快速运算出来从1.1万到十几个人。这是一种模式。你可以看到我是分了几个层次。快速运算出来的。 

我们也可以把这六个标签一下子老综合考虑,什么籍?男性,25到35,最近一个月,有跟叙利亚、土耳其通话,杭州某地转塘,以及用了VPN的,我对前面讲的几万亿条的数据量,我们在G20这个项目之前做不到十秒,大概8到9秒就能把这最后十几个人分析出来。 随着不断的调优,到了实战我们花5秒左右的时间把这个做出来。大家可以看到利用大数据的强大的分析能力,对我安全的保障,同样我反恐系数也可以相类比的利用这个标签系统分析能力去做一个系数,这是国计民生第一个应用案例。 

第二个,给某省交通厅做危化车辆的运输,我只要车上装一些GPS,把这个数据通过3G4G网络快速传到中控中心,有一个数据的接收器。如果这个危化车辆到了重点场所、居民区,500米、1000米的时候,进行黄色、红色预警,这个也是对微化车辆预警。 

第三个,比较有意思,风电设备,因为往往环境比较恶劣。我们也是通过搜集传感区的数据来进行风电设备的一个老化的检测。其实不仅是风电设备了,稍微发散一下,我们高铁的发动机,其实还有大型钻井的风机,几年前,西门子啊,德美的一些公司如GE更多的是用特征工程来做的。像风机五年左右会出现衰减的曲线,就是到了5年,相当于一个抛物线的顶部出现故障的频率比较高了,然后再趋于平缓。 

那我们能不能结合大数据?甚至只用大数据做特征工程不能做的事情,来预测我设备的故障,我实现状态修,我不是故障修,而且我这个预测一定要准,我5年的时间会出问题,我最好4.8年的时候预测出这个问题。 

还有我们正在给风机塔的建设,去收集风机塔的高度,周围500米到300米的湖泊,以及两公里以内的湖泊,主风向等等这些参数,你可以用所有这些参数历史数据,做了数据准备之后。分析出来的结果可以决定风机塔的建设参考,有时候跟我们的经验工程师是不一样的。有不少的时候,其实我们的经验也不能想到的,甚至没有发现的,这是非常有意思的一些事情。 

高速逃费也是,我们给浙江的一个高速站,现在正在做的几个案例,就是根据你这个车辆,车牌, 第二是车辆的形状、颜色,因为我们逃费是有大车会拿一个小车的牌子过来就少交钱,有这种逃费的过程, 比较容易通过图片识别快速锁定ETC逃费车辆并实现实时跟踪。 其实根据车辆车牌的形状,很容易做这个车辆逃费,浙江省一年逃费损失大概十个亿。 

还有地下的停车中心,我们前面讲到的都是对人,其实你所有的车牌,大家想想也都是作为一个唯一的ID。我们进了地下的时候,这个车牌就识别,车牌关联到车主,关联到人,我如果是这个大型商场的VIP客户的话,你一进来就发现了杨先生,你是我们尊贵的VIP客户,我现在建议你往右拐,再前面左拐到达了VIP的停车位。这个VIP的停车位一定跟商场的门口很近。这是车牌识别之后,关联到人等等一系列的应用。 

如果随着我后面车辆库、车牌库的数据搜集越来越多,我们ETC卡也不用了,之需要车牌的实时识别,大家想一下这个影响还是蛮大的。还有现在已经在做的一些POS系统,我不知道大家去超市购物的时候,有没有看到,一个是双面的POS系统对吧?一般那一面面对着就是收银员,这一面给你看到你购物的一个清单。但是你如果已经是会员了,根据你会员购买的历史,在列清单的时候,我们是不是能做精准交叉营销呢?在右上角是来显示你的这个购物清单,其他三分之二的这个视频上面,给你推荐了产品。 

对会员且不说了,如果对一个进商店的,目前还不是会员,随着后面我们这个库的数据越来越大,我通过,其实今天人脸识别已经很厉害了。人脸识别之后,把你所有网上的一些信息,网上我们上网的日志,基本上有一个礼拜,两个礼拜的日志,对你的收入、教育,所有这些5、6个字段锁定还是挺准的。 

那把所有这些数据拿上来之后,新一代的收银系统也很有意思,数据智能的客户中心就更有意思了。其实我自己就深有感受,目前来说还是比较苦闷的,我记性不大好,经常会忘。比如你到了招商银行信用卡,查询密码忘掉了,一次两次三次,可能就被锁定了。你没办法,就打95555,你打95555这个客服进来了,他都是1干什么?2干什么?不行再返回主菜单。我在想我已经因为在那个一分钟前,30秒前输了5次或者3次查询密码。当我们把这些数据交叉之后,现在讲的多渠道,综合数据管理,就是我们在信息化做得非常领先的招商银行,其实还有没有做到?如果有银行的不要介意。我打这个电话进去的时候,他根据我一分钟前输了几次密码,至少第一个选择是说你要重设查询密码, 然后再是下面的主菜单, 这个是说新一代的智能客服中心中的一个例子。这是与我们生活已经息息相关了。

以上用了40分钟跟大家分享一下阿里云这个大数据智能,我们称之为数据智能平台怎么来支撑今天支付宝、蚂蚁金服、菜鸟等等这一系列应用,我这个平台上。最最本质的一点是说我有一个高质量的、统计的、一套的数据在已经打通了的平台上去运行。同时我们不仅是说用这套数据智能平台服务自己阿里集团,今天除了给2C这些,淘宝、天猫不说了,我们其实已经在2B领域跟我们的合作伙伴做非常非常有意思的东西。 

最后用30秒时间讲一下,我们做的还是基于这个平台和强大的计算能力,数据治理的实战经验,以及图像识别、语音智能方面的数据智能大平台。最后的5公里、1公里的应用、服务,我们是和我们的生态一起去提供给我们的企业客户。 

好,最后谢谢大家! 

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:陈琳 来源: 51CTO
相关推荐

2016-11-25 22:27:57

阿里云计算

2009-03-18 11:50:56

阿里巴巴卫哲跳槽

2013-06-02 21:53:51

阿里巴巴Windows Azu淘宝

2013-10-30 16:40:55

阿里巴巴阿里云云计算

2013-08-08 10:34:50

阿里巴巴BAT

2012-09-11 10:09:54

阿里云

2010-06-28 10:43:47

2009-03-20 09:12:56

阿里巴巴卫哲马云

2013-02-19 10:47:13

阿里巴巴阿里云·搜索阿里云

2010-08-16 10:29:34

阿里巴巴搜狗

2018-03-20 09:44:32

2012-07-06 16:19:23

华为服务器

2013-08-22 09:41:52

阿里巴巴去IOE王坚

2009-03-02 10:24:53

阿里巴巴招聘马云

2012-09-17 10:20:11

2015-07-29 20:35:17

阿里巴巴阿里云

2014-03-17 10:24:22

阿里云物联网美的

2009-06-30 13:28:54

阿里巴巴旺旺

2013-04-15 10:14:45

阿里巴巴大数据

2018-01-02 09:23:38

数据分析算法阿里巴巴
点赞
收藏

51CTO技术栈公众号