Airbnb王宇:揭秘Airbnb的跨洋大数据平台架构

存储 新闻
Airbnb Sr Software Engineer王宇与来宾分享了"Airbnb的跨洋大数据架构"主题演讲,为大家揭秘Airbnb是如何解决大数据的存储应用以及跨洋的数据平台的搭建和支持。

  【51CTO.com原创稿件】2017年12月01日-02日,由51CTO主办的WOTD全球软件开发技术峰会在深圳中州万豪酒店隆重举行。本次峰会以软件开发为主题,数十位专家级嘉宾将带来多场精彩的技术内容分享。

Airbnb Sr Software Engineer王宇在大数据系统架构设计专场与来宾分享了"Airbnb的跨洋大数据架构"主题演讲,为大家揭秘Airbnb是如何解决大数据的存储应用以及跨洋的数据平台的搭建和支持,详析Airbnb大数据挑战和解决方案,分享如何解决大数据高效存储和计算的过程,并了解如何进行大数据平台的跨洋支持。

[[211936]]

Airbnb Sr Software Engineer 王宇

Airbnb爱彼迎成立于2008年8月,拥有世界***的客户服务和日益增长的用户社区,在这里用户可以通过网站、手机或平板电脑发布、挖掘和预订世界各地的独特房源。目前在全球范围内拥有数千名员工,支持超过191 个国家的65000 个城市的物业租赁。随着Airbnb的业务日益复杂,其大数据平台数据量也迎来了爆炸式增长。

揭秘Airbnb的跨洋大数据平台架构

大数据时代,每个公司都会遇到一些共性的挑战,比如大数据的采集、整合、存储、计算。Airbnb Sr Software Engineer王宇表示,Airbnb特殊之处就在于是一家美国公司,在中国就会存在数据的跨区域备份的问题。作为一个旅游平台,Airbnb会存储一些和个人相关的信息。中国的研发团队不仅需要在***可能的程度上使用中国本身还有国际的数据,还需要保证数据的安全性和使用时的延时。

基于这些挑战,Airbnb构建了一套从数据采集、数据整合、数据清洗到数据浏览的一套系统。在global,整个架构采用了两套独立的Hadoop集群,分别为Gold集群和Sliver集群。

所有的原始数据都会先导到Gold集群里面,Gold集群负责数据最初的清洗和整合,等这些数据清洗整合好之后,再把这些数据传输到Sliver集群。在这两个集群中间,Airbnb通过自己研发的一个名为Reair的系统 ,可以保证两边的数据完全一致。如果Gold集群中的数据有一些变化,也会很快会反馈到Sliver集群。

王宇指出,设计两个独立的集群的优势就在于用户作业的错误隔离,方便容量规划,保证SLA,易于测试新版本,灾难恢复。而劣势在于不利用户容易混淆,数据同步还需要单独开发ReAir以及运营成本。

在中国,Airbnb新建了一套和global类似的大数据系统,中间是由AWS S3作为数据的通道,由于AWS有跨区域备份(Cross-Region Replication ,CRR)功能,可以便捷地进行备份。

通过大数据平台的构建,帮助Airbnb成为一家数据驱动型公司,凡事以数据说话。通过数据分析能够为用户提供***的旅行体验,基于数据做出正确的产品决策。收集指标,通过实验验证假设。构建机器学习模型和挖掘商业机会使得Airbnb公司高速、灵活的成长。

构建跨国大数据平台,合规首当其冲

Airbnb在大数据平台架构构建的过程中,也收获了很多宝贵的经验。首先,多关注开源社区。在开源社区有很多大数据架构方面优秀的资源可以采用。其次,多采用标准组件和方法。有时候自己开发并不如使用已有的更好资源。第三,确保大数据平台的可扩展性。当前业务数据呈现爆发性增长,因此要确保产品能满足业务的增长。第四,多倾听同事的反馈来解决问题。第五,预留多余资源。

针对构建跨国大数据平台需要注意的问题,他谈到,要从法规、流程、技术、整套系统上做到可靠。首先最重要的是法规,要了解在跨国支持的时候在法律法规上将面临限制和挑战。其次,一定要有一套可靠的数据通道。第三,整套系统要设计的通用一些,因为要从global导入很多不同的数据。同时,一定要做好监测,哪些数据能出哪些数据不能出,包括两边数据的一致性。

***,在谈到未来规划时,王宇表示,由于业务对数据增长不是线性的,可能是呈指数级增长,因此,一定要进一步提升大数据平台的能力,特别是加强在不同场景下的机器学习的能力。同时,对于新技术、新产品要时刻保持一个开放、乐于尝试的心态,才能让Airbnb的大数据平台更上一层楼。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:Barry 来源: 51CTO
相关推荐

2018-05-25 10:05:13

大数据架构实战

2013-07-31 09:20:07

大数据引擎云计算个性化搜索

2016-10-12 09:10:56

大数据Airbnb

2019-12-12 10:22:16

大数据平台大数据安全大数据

2021-02-22 10:55:59

大数据大数据平台数据平台建设

2020-12-17 19:15:48

大数据大数据平台架构数据平台建设

2019-12-24 08:11:39

大数据架构数据开发

2011-08-12 11:14:42

大数据数据分析平台架构

2017-06-19 13:10:59

大数据大数据平台架构

2017-02-28 21:23:34

大数据采集架构分析

2017-06-20 09:54:18

大数据架构数据分析

2017-02-06 14:40:55

AirbnbLottieGif

2016-02-29 13:17:14

Airbnb数据基础设施Hadoop 集群

2021-02-22 10:32:53

大数据大数据平台大数据技术栈

2017-12-15 11:09:05

设计师LottieAndroid

2017-12-15 14:20:24

AndroidAirbnbLottie

2014-07-24 09:08:07

大数据平台架构

2016-05-11 10:51:53

Airbnb数据科学知识仓库

2017-09-06 16:40:51

机器学习Airbnb预测房价

2017-06-22 11:03:58

大数据大数据平台架构技术
点赞
收藏

51CTO技术栈公众号