淘宝车品觉:数据,你准备好了没有?

大数据
4月11日杭州举办的“淘宝开放日”活动中,阿里集团数据委员会会长车品觉在论坛上分享了其在大数据领域的从业经验。

车品觉在加盟阿里集团前曾在汇丰银行、电信盈科、微软、eBay等多家MNC担任总监职务,积累大量中小企业在互联网发展的经验,论坛上讨论的主题为《数据,你准备好了没有?》。

分享主题有十点,我们节选了部分的主要内容:

一切从问题开始

[[70498]]

提到数据中表现明智,不是要增加更多东西,而是要去除过份复杂和装饰性的东西。理解了问题 ,就能化解问题,问题本身就是答案。

车品觉列举一个亲身经历:有不少做电商的从业者向其提出疑问,B2C企业里大数据使用几年了,真的有效么?车会反问道,你知道你的老板在过去六个月里的困难是什么?分析师往往5-10分钟都无法回答,这表明从业者自己都不了解应该把数据用在哪里,这样如何能使用好数据?。“懂问问题的本身,便找到了答案。”

如果分析师能把问题拆分成三个问题:公司现面对的头三个问题是什么?未来三个月要解决的是什么?过去一个月作对了什么?事情便好办多了。车再次举出了一个在面试中自己常问的问题:“今天早上九点,我是淘宝的CEO,你是我的分析师,请给我三个指标,让我对上周的业绩安心。”

面试者常常不假思索的回答:“流量”,“交易量”,碰到第三个问题,才需要思考。这表明面试者并不了解问题:问题的核心在于对象是淘宝,不是所有的电商,目标是CEO,而不是产品总监,第三问题表明这是一个周敏感的数据(参考答案会在后文解答)。

“数据的力度是无穷的,你可以在不同维度里一直拆分下去,分析师只需要知道哪些数据对自己有用即可。”而数据收集的难度在于,你的起步应该有多宽,如何预判哪些数据是可以为将来所用,这个问题困难了车半年的时间。

在实践中提炼数据的敏捷性

big-data

在动态中试验,找出数据的规律性规律性就是不仅我会用,只要你知道了,你也会用。数据必须不停的时候,若仅凭借记录的数据,是难以还原当时的场景:有一个人在下雨天买了面包,如果不再当时去考虑,是无法推断出影响此行为的决定性因素。背景数据无法还原当时情况。

航海日志是一个很好的例子,收集数据后定位——进而做出决策——发现差异——回馈从新定位收集数据的范围。这个过程中需要不断的反馈,最后做成一个表格,数据便是这么提炼出来。

让数据——获取、使用、分享、协同、连接、组合

由于现在的数据统计得极不规范,使用数据的人很难有效的获取信息,让用户轻松感受到数据的价值,过去在做数据时,很少会有人考虑用户体验,这恰恰是最重要的。比如数据里面出现了SQL,便使得很多技术以外人士无法读懂,美国现在已经有企业提倡去除SQL,便是为了减低交流成本。

上面说的是使用。如何获取同样也是十分重要的问题。Google Glass这款产品为何如此重要?因为它能收集的数据与传统渠道的区隔是天翻地覆的:从一个人早上起来遇到的每一个场景、每一个回馈所得的数据都收集起来,一个人50%-60%的数据都能收集到。让数据尽可能简单的收集起来。

颠覆创新来自分裂或重组

一个人注册网站的时候,可能性别会是男。但仔细调查可以发现,或许早上的性别是男,晚上是女。或者70%是男,30%是女。过去是0与1的关系,现在是0-1的关系,这是一个立体的数据,年龄也是同样的情况。

车品觉在这里举了一个鲜活的例子:“现购物人群趋势里,出现了diaos高帅富化与高帅富diaos化,三四十岁的人群,去买颜色很鲜艳的手机;而工薪族会去以数个月的工资来买一个LV包,这些都是很常见的。”分析的时候需要具体进行分裂。

4

以假设数据都能获取去思考问题

大数据是众多事物的数据化,获取数据的成本越来越低。阿里数据科学部的杨滔先生举出了四个特点:

量变到质变:小样本下,模型无法达到满意精度,大众就觉得模型不行,但当样本达到一定量,模型精度会显著提升,从而使模型具备以前不具备的功能。

片段到全局:大数据能从多个角度判断一个对象,许多模型都是对象的片段信息,但将这些片段组合在一起时,就会在整体判断有爆发提升。

应用到资源:小数据下,数据是为了具体场景的效果提升,但当大数据模型能够辨识全局,数据得出的信息就会成为许多创新及应用的源泉。

大数据包括多个数据处理和挖掘的环节,每一个环节都是科学+艺术,建模能力需要非常强,才可能深度挖掘其价值。

数据开放是硬道理

清华大学科学学院经济学教授、清华大学华商研究中心副主任刘鹰在谈到“从数据、信息到知识的演变”,他的逻辑是:从数据中获取信息,从信息中提炼知识(见图)。

9

我的问题是如何完成这个从数据到知识的提炼过程?谁来来完成这个过程?我的理解是,任何个人是不能在大数据时代做成一件事的。如果说在农业时代是“三个和尚没水喝”的话,在大数据时代则是“只有三个和尚在一起才有水喝”。

同时,这三个和尚还不能是同一个师傅教出来的,第一个和尚要会statistics and machine learning;第二个和尚要有专业知识,例如经济学、社会学和心理学等;第三个和尚要懂计算机的硬件和软件。

三角鼎力方可百战百胜!阿里研究中心将各部门打散,不同部门的人组成若干项目小组,大量动用各方专家进行合作研究,可见他们Boss的洞察力和领导力了!

利用数据拿到更多数据

77

电子科技大学计算机学院教授尚明生指出:数据“大小”自然是不重要的,或者说“数据”本身就不重要,重要的是数据中隐含的“信息”。比较麻烦或者复杂的是,这个“信息”的效用没有一般的准则,因为它通常是为了解决不同的具体问题而言的,而问题又可能是多种多样的,甚至无法预知。

我们无法直接抓住所有可能的信息,只好去抓信息的来源,也就是数据。从这个角度出发,这个数据就需要越大越好,这实际上是我们事先不确定其中可能有用的信息,又不想失去某个部分,再加上想偷懒,就想用同一份数据,来满足不同(的人对于他们自己感兴趣)的问题需求。

在实际应用中,如果问题比较固定,从抽样理论出发,数据规模是可以限定大小的;如果问题本身发展变化,数据还会越来越大。

数据化营运是一种对待数据的态度

大数据的核心是以数据作为决策的依据,而不是拍脑袋。大数据时候需要改变的是管理的模式,而数据量的增加仅仅是使得这种改变更加紧迫、更有基础。这件事在10年前我开始给学生讲商务智能课的时候就是这样,再回去20年这种思路就有。

从这个角度来说,数据的大小确实不重要,重要的是管理的模式和文化。今天之所以提出大数据管理,对于许多企业讲其实是补10年(甚至更多年前)前管理理念上的课。

但是,电商在这方面占据了先机,现有的人员、技术和管理理念基本上可以支持大数据管理,这是一些线下企业,或者数据基础、管理基础比较差的企业望尘莫及的。数据量的积累对于这个企业而言还是重要的。

原文链接:http://www.leiphone.com/s-big-data-ready.html

责任编辑:彭凡 来源: 雷锋网
相关推荐

2016-07-08 15:54:00

创业

2011-01-11 15:06:02

Linux安装准备

2013-01-28 16:51:45

2010-08-25 15:49:04

面试

2016-05-31 16:50:33

2011-05-25 17:08:29

ibmdwLinux

2016-11-21 17:39:08

云计算

2015-06-24 16:03:24

大数据.SAS

2021-04-28 11:38:10

“熄灯”数据中心数据中心运维

2015-01-07 10:45:05

Dockerkubernetescontain

2015-10-19 16:51:01

2019-04-18 15:32:45

Serverless腾讯云TVP

2018-10-11 17:43:15

人脸识别人工智能AI

2011-01-12 09:37:59

2020-03-26 17:28:22

CIO观点MES系统制造企业

2018-10-16 18:26:52

人工智能AI

2015-10-15 17:11:47

赛思股份

2016-11-01 13:31:27

2017大数据

2011-07-08 10:18:09

海量数据数据挖掘

2011-05-25 10:15:47

开源
点赞
收藏

51CTO技术栈公众号