社区编辑申请
注册/登录
看Hadoop解决数据处理的三大瓶颈
数据库 大数据 Hadoop
越来越多的大企业的数据集以及创建需要的一切技术,包括存储、网络、分析、归档和检索等,这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给IT部门带来了一系列必须解决的问题。

越来越多的大企业的数据集以及创建需要的一切技术,包括存储、网络、分析、归档和检索等,这些被认为是海量数据。这些大量信息直接推动了存储、服务器以及安全的发展。同时也是给IT部门带来了一系列必须解决的问题。

信息技术研究和分析的公司Gartner认为海量数据处理应该是将大量的不同种类以及结构化和非结构化的数据通过网络汇集到处理器和存储设备之中,并伴随着将这些数据转换为企业的商业报告。

海量数据处理的三个主要因素:大容量数据、多格式数据和速度

大容量数据(TB级、PB级甚至EB级):人们和机器制造的越来越多的业务数据对IT系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成为难点。

多格式数据:海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,再到仪器收集到的科学研究数据、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等)。

速度:速度是指数据从端点移动到处理器和存储的速度。

Kusnetzky集团的分析师Dan Kusnetzky在其博客表示“简单的说,大数据是指允许组织创建、操作和管理的庞大的数据集和存储设施工具”。这是否意味着将来将会出现比TB和PB更大的数据集吗?供应商给出的回应是“会出现”。

他们也许会说“你需要我们的产品来管理和组织利用大规模的数据,只是想想繁杂大量的维护动态数据集带来的麻烦就使人们头疼“。此外海量数据的另外一个价值是它可以帮助企业在适当的时机作出正确决策。

从历史上看,数据分析软件面对当今的海量数据已显得力不从心,这种局面正在悄然转变。新的海量数据分析引擎已经出现。如Apache的Hadoop、 LexisNexis的HPCC系统和1010data(托管、海量数据分析的平台供应商)的以云计算为基础的分析服务。

101data的高级副总裁Tim Negris表示海量数据的收集以及存放和利用海量数据实际上完全是两回事。在做任何事前需要大量(准备数据)的工作是像Oracle和大多数数据库厂商所面临的难题之一。我们正是要消除这个难题,并把数据直接交到分析师的手中。Hadoop和HPCC系统做到了这一点。这三个平台都着眼于海量数据并提供支持。

开源的Hadoop已经在过去5年之中证明了自己是市场中最成功的数据处理平台。目前Cloudera的首席执行官和Apache基金会的Doug Cutting是Hadoop的创始人,他曾在Yahoo工作过。

Hadoop将海量数据分解成较小的更易访问的批量数据并分发到多台服务器来分析(敏捷是一个重要的属性,就像你更容易消化被切成小块的食物)Hadoop再处理查询。

“Gartner和IDC的分析师认为海量数据的处理速度和处理各种数据的能力都是Hadoop吸引人们的地方”。Cloudera的产品副总裁Charles Zedlewski说到。

在Cutting和他的Yahoo团队提出Hadoop项目之后,在Yahoo IT系统测试并广泛使用了很多年。随后他们将Hadoop发布到开源社区,这使得Hadoop逐渐产品化。

【编辑推荐】

  1. 数据挖掘中易犯的几大错误
  2. 整理索引碎片,提升SQL Server速度
  3. 大数据平台:探索数据价值
  4. Big Data技术综述
责任编辑:艾婧 来源: eweek
相关推荐

2022-03-14 09:46:10

Hadoop大数据

2017-05-05 09:53:34

2018-06-15 20:44:40

Hadoop数据分析数据

2019-04-23 15:35:53

Hadoop大数据数据处理

2020-08-24 15:36:26

Hadoop大数据数据

2013-12-27 16:15:11

2019-03-14 15:11:18

Hadoop大数据分布式

2012-09-20 11:23:18

Hadoop云计算

2013-10-22 09:22:07

Hadoop 2大数据

2015-05-29 11:43:57

Hadoop数据资源池

2015-05-05 11:18:18

大数据Hadoop技术处理

2017-04-10 08:56:46

Hadoop环境数据存储技巧

2012-08-08 09:53:23

HadoopMapReduce

2018-01-22 08:33:28

SparkHadoop计算

2016-06-01 15:42:58

Hadoop数据管理分布式

2019-06-18 14:12:07

Hadoop大数据数据库

2013-08-23 10:42:03

2013-08-23 10:18:06

2011-09-01 15:12:43

SQL ServerHadoop

2017-09-18 18:31:08

Hadoop

同话题下的热门内容

历时1年,大型金融企业100%核心系统国产数据库迁移实践明明加了唯一索引,为什么还是产生重复数据?字节二面,两个事务执行 SQL 语句的过程中,导致死锁推荐几款好用的MySQL开源客户端,建议收藏都说国产数据库90%兼容Oracle,为何迁移过程中总遇难题?一款Web3原生数据库:Tableland分布式系统中,级联故障是最可怕的如何设计多语言数据库

编辑推荐

Oracle数据库初学者开场篇NoSQL数据库概览及其与SQL语法的比较如果对MySQL还停留在这个印象,就out了SQL编程之高级查询及注意事项防止服务器宕机时MySQL数据丢失的几种方案
我收藏的内容
点赞
收藏

51CTO技术栈公众号