微软开源大数据框架REEF

开发 架构
在本周一的国际知识挖掘与数据发现大会上,微软信息服务首席技术官Raghu Ramakrishnan透露微软计划近期内开放其大数据框架REEF(Retainable Evaluator Execution Framework)。REEF被设计运行于下一代Hadoop资源管理器YARN之上,非常适合运行机器学习任务。

在本周一的国际知识挖掘与数据发现大会上,微软信息服务首席技术官Raghu Ramakrishnan透露微软计划近期内开放其大数据框架REEF(Retainable Evaluator Execution Framework)。REEF被设计运行于下一代Hadoop资源管理器YARN之上,非常适合运行机器学习任务。

reef2-1-microsoft

资源管理器YARN是Apache hadoop项目的一部分,可以让用户在同一物理集群上运行和管理多种任务(例如批处理MapReduce、用Storm进行流处理或图形处理包)。 YARN不但能帮企业整合多个需要管理的系统,还能在同一数据和地点运行多种分析任务。有些情况下,整个工作流都能在单一集群上完成。

但Ramakrishnan指出,有些类型的任务,例如机器学习,对数据移动、任务监控有特殊要求,而且经常需要能够在之前的结果中回滚,并不适合YARN这样的框架。而运行在YARN纸上的REEF能够解决这些问题。

reef-slide

根据Ramakrishnan的演讲稿,REEF分为两个主要部分(上图):

一个是求值器Evaluators,是用来承载REEF服务的容器,另一个是活动代码Activities,是在求值器内部运行的用户代码。

总的来说,REEF是一个很有意义的技术,解决了一些公司长期遗留的难题。值得注意的是,REEF的开源标志着微软对Hadoop(主要通过YARN)及开源社区的战略投入,微软正融入Hadoop开源社区,并试图通过回报社区让自己在开发者眼中变得“性感”起来。

总体来看,微软大数据战略的核心 是在Azure上提供Hadoop、机器学习、高性能计算和数据分析服务。因此,微软在大数据技术方面的动作也绝不仅限于与Hortonworks在 Hadoop平台上的合作,正如微软技术研究员Dave Campbell所言:“Hadoop只是微软信息生产线迈出的第一步。”而REEF的开源,正是微软打造机器学习业务生态环境的第一步。

原文链接:http://www.ctocio.com/ccnews/13240.html

责任编辑:陈四芳 来源: IT经理网
相关推荐

2012-04-01 14:57:46

2021-03-15 14:09:05

大数据大数据框架技术数据开发

2021-02-10 16:03:19

大数据开源框架

2012-07-20 15:03:49

微软开源

2012-12-20 13:02:20

2020-10-26 07:05:02

大数据管道编排编排框架

2012-07-04 11:47:39

大数据开源

2013-10-18 15:27:30

微软大数据微软

2017-02-15 14:36:12

开源大数据TensorFlowO

2012-09-13 09:52:14

大数据数据应用开源工具

2019-04-08 17:16:43

大数据开源工具

2015-06-01 10:31:43

微软开源rDSN

2012-07-03 09:59:47

微软Cloud Numer大数据

2016-09-27 21:35:28

BossiesSparkTensorFlow

2018-06-06 15:00:27

开源大数据大数据项目

2019-08-14 17:13:23

大数据MapReduce框架

2020-07-16 14:40:23

大数据计算框架

2015-09-17 13:51:07

大数据开源系统

2012-10-23 09:48:37

2017-07-03 13:11:39

大数据Hadoop模块介绍
点赞
收藏

51CTO技术栈公众号