Facebook谈大数据:光有Hadoop还不够

云计算 Hadoop
Facebook分析主管Ken Rudin表示,Hadoop编程框架可能是“大数据”运动的代名词,但对于公司从大规模存储的非结构化信息中得到商业洞见的需求,Hadoop不是唯一的工具。

Facebook分析主管Ken Rudin表示,Hadoop编程框架可能是“大数据”运动的代名词,但对于公司从大规模存储的非结构化信息中得到商业洞见的需求,Hadoop不是唯一的工具。

“有很多普遍的大数据信念需要被质疑,”Rudin说,“问题是,Hadoop是一种技术,但大数据不是关于技术的,大数据是关于业务需求的。”

“实际上,大数据应该包括Hadoop和关系型数据库和任何其他适合手头任务的技术。”他补充说。

Facebook的商业模式依赖于对其超过10亿社交媒体用户的用户资料和活动数据的处理,以提供有针对性的广告。但是,“对于我们的所要做的,Hadoop并不总是***的工具。”Rudin说。

例如,在Hadoop中对一个数据集做广泛的探索性分析是有意义的,但关系型存储对于进行运营分析的发现更好。

Rudin表示,Hadoop对于在一个数据集中寻找***水平的细节也不有好处,但关系型数据库对于存储转化和汇总的数据更有意义。

“结论是,为你的任何需求使用正确的技术。”他说。

Rudin还有另外一个假设,即分析大数据的单纯行为提供有价值的见解。“问题是为无人问津的问题想出更加辉煌的答案,”他说,“要弄清楚什么是正确的问题仍然是一门艺术。”

Facebook一直专注于聘用合适的员工来运行其分析业务,不仅要拥有统计博士学位,还要精通业务。

“当你面试的时候,不要只关注‘我们怎么计算这个指标’”Rudin说,而是要给他们一个商业案例研究,并问他们哪些是最重要的指标。

企业还应该尝试培养“人人分析,”Rudin表示。

Facebook运行一个内部“数据营(data camp)”,一个两星期教导员工分析的计划。Rudin说,产品经理,设计师,工程师,甚至财务部门工作人员都出席。“人人参与其中的意义,你给大家一个数据的共同语言,他们可以用来讨论问题和难题。”他说。

Facebook还动摇了统计人员和业务团队的组织。如果统计人员保持独立,他们往往“坐在那里等待来自业务领域的请求并回应他们”,而不是主动的。但是,如果统计人员被放置到业务单位,“你会发现多个团体试图冗余地解决问题。”他说。

Facebook已经采用“嵌入式”的模式,把分析师放在业务团队,但他们向更高级别的分析师报告,这有助于避免重复劳动。

责任编辑:王程程 来源: IT专家网
相关推荐

2017-10-25 05:20:24

2013-12-12 10:00:03

大数据

2016-10-17 22:04:36

开源云计算程序员

2015-10-09 16:14:37

数据开放

2021-07-05 10:13:29

人工智能AI数据

2016-06-06 11:14:21

DockerDelphix

2016-06-16 17:13:59

Hadoop

2016-12-20 18:21:29

Hadoop大数据面试

2015-05-06 15:06:20

腾讯云北美数据中心

2014-03-21 09:51:42

2016-12-28 18:07:08

大数据大数据技术大数据发展趋势

2012-09-29 09:37:42

Facebook大数据Hadoop

2012-08-23 15:10:44

Facebook

2012-08-23 14:21:47

大数据

2016-10-10 14:05:46

存储

2009-12-25 12:37:37

杀毒软件桌面安全

2013-10-11 09:39:01

SAPSaaSSAP HANA

2020-04-20 10:55:57

大数据人工智能技术

2013-04-12 10:56:31

大数据

2015-09-21 14:29:33

物联网智能设备
点赞
收藏

51CTO技术栈公众号