WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

新闻资讯 > 大数据 > 正文
如何构建大数据的高效率平台?写在遇到Hadoop之前(1)
作者: 崔昊 2013-08-28 17:05 【watchstor.com】

在Hadoop成为"大数据代言人"的背后,是存储行业和企业用户,对大数据根本的遗漏和大数据机遇的遗失。

延伸阅读:《双统一存储架构 华为中端架构有变

华为存储的闪存战略中期目标:改变存储融合现状

Hadoop一直是大数据话题中最火热的部分,作为一个为了处理海量数据而开发的、以分布式系统为基础的开源架构,Hadoop实现了让用户在不了解底层细节的情况下,开发程序并处理大数据的可能性。对于许多企业用户来说,Hadoop确实产生了巨大的作用并具有重要意义。

但随着Hadoop开始成为与大数据"等同"的词汇,事情却开始朝着并不完美和可靠的方向发展。虽然许多企业不断钻研并苦于掌握Hadoop技术,但他们其中越来越多的大数据参与者们发现,Hadoop所解决的只是存储、管理、保护、利用等一系列数据生命周期--不仅是大数据的生命周期--中所需要完成工作的一小部分。

Hadoop并不等同于大数据,企业实现对大数据的"完美应对"绝不仅仅是依靠Hadoop。

现阶段,我们对大数据最常用也是最接近准确的描绘是大数据的"4V模型",在这个模型中,大数据被描绘成为四个以V开头的英文单词:Volume、Variety、Value、Velocity,其分别代表大数据的四个特性:巨大的容量、数据种类繁多、价值密度低和处理速度快--这四者形成并相对完整的描述了我们所面对的大数据挑战,而Hadoop只是实现了"Value和Velocity"的其中一部分需求。

回到大数据的4V我们不难发现,它们之间存在着相对完整的递进关系:在存在着巨大的超过PB甚至是EB数量级的数据集的环境下,数据的多样性、多元性必然是十分突出的,而正因为有了多元化的、体量巨大的数据,我们才会发现数据的价值密度被稀释--我们需要采用更快、更直接的方式去处理体量巨大但价值密度更低的数据集。

大数据的4V描绘了从"膨胀变大到丰富多样,再到稀薄的"氧气"与快速响应的需求"之间不断递进的大数据矛盾与挑战。

"千里之行,始于足下;不积跬步,无以至千里;不积小流,无以成江海。"在大数据4V模型的指引下,从大数据的根本与大数据的挑战出发,在Hadoop与MapReduce之外,我们将更加接近企业用户应对大数据问题的答案。


【内容导航】
 第 1 页:如何构建大数据的高效率平台  第 2 页:容量与性能:同时压向企业的两堵墙
 第 3 页:多样化的应用需求:并非简单的"存储"  第 4 页:回归问题根本:效率的"全生命周期"
 第 5 页:从医疗到媒资:大数据的具象化挑战

标签:大数据 

了不起的IT经理
LecVideo
论坛与活动