绿丫合作社
服务:4件诚信:80分
解忧科技
服务:4件诚信:80分
网站建设-Maya...
服务:3件诚信:90分
九天艺术
服务:6件诚信:80分
立上创意设计
服务:5件诚信:80分
健健店铺
服务:2件诚信:80分
竹工凡尘装饰设计
服务:2件诚信:85分
工程造价工作室
服务:3件诚信:85分
中华传统花艺
服务:4件诚信:85分
微中云
服务:4件诚信:80分

什么才是真正的大数据关于大数据的几个特性

2279

发布：2021-10-14 04:36:44 来自夨落旳尐孩蚂蚜会员 L1

“ 大数据 ”现在可谓越来越火了，不管是什么行业，也不敢是不是搞计算机的，都要赶个集，借着这股热潮，亦或炒作，亦或大干一番。尤其是从事IT行业的，不跟“大数据”沾点边，都不好意思出去说自己是干IT的。

“大数据”一词，已无从考证具体是什么时候兴起的，只是隐约记得大概火了三四年了吧。多大的数据算“大数据”哪？麦肯锡研究中心给出的定义是“超过一般计算机处理能力”的数据。好吧，这个概念真是投机取巧，让人难以攻击。因为大数据的界限真的难以定义。只能说我们平时自己保存和处理的数据都不是大数据。有些人以为自己电脑里有个特别大的Excel文件就是大数据；还有些人觉得有个数据库装了些数据就是大数据；有些闷骚男们说了：我专门买了个盘存了好几T的片片那，看我有这么大的数据……这些都不是大数据。

按照麦肯锡的定义，既然大数据是一般的计算机都处理不了的数据，那么肯定不是几个尺寸大点儿的文件就可以被称之为大数据。笔者斗胆总结一下大数据的几个特性：

首先，大数据肯定是存储量很大的数据。

这是前提条件。业界没有给出明确的数量定义，但肯定不能低于TB级。否则一般的个人电脑就可以轻松处理，就没有多大的研究价值了。

其次，大数据一定是没有明确组织规律的。

虽然局部可能有些规律可循，但总体上一定是没有统一的规律了。否则也没有多大的研究价值。可能兼顾了表格、图片、日志等多种类型的数据，甚至可能会有各种格式的视频和音频流。

第三，大数据一定是不容易分析的。

接着第二点来说，大数据肯定不会是单纯的存储和组织方式，不会像我们平时自己造的表格那样简单明了。而且，我们无法从中分析出一个简单统一的公式，使得所有数据都可以满足这个公式。即便是可以分析出某些公式来，也会形成成百上千个公式。所以，大数据的分析一定不是一蹴而就的，而是分布开展的。可能先会得到一些最原始的规律，再从这些原始规律中去分析出更高级的规律……不知会经过多少步才会得到最终有些价值的信息。

第四、大数据一般是动态的。

大数据一般不会是死或一成不变的数据，而是会不断追加新的数据，从而其尺寸不断变大。比如常见的就是操作日志、监测数据……等等。常见的大数据包括大型机场的订票或飞行数据、大型超市的用户购物记录、证券公司股民的股票交易记录、化工厂的设备运行监测数据、城市出租车起止位置数据、煤矿等作业区域的人员定位数据……等等。这些数据除了数据量很大外，还会实时产生海量的新数据。所以进行大数据分析时要充分考虑到数据的变化因素。

第五、大数据一般是用于预测的。

正如上段内容中介绍的，大数据环境一定是海量的数据环境，并且增量都有可能是海量的。大数据分析的价值就是从已有的数据中分析出固有的一些规律，从而能够与未来新产生的数据相吻合，从而可以提前预测未来会发生的一些事件，或提供一些有价值的信息，提前进行决策和处置。

忽然想起了多年前大学期间学过一门课程，叫《数据挖掘》，里面提到了数据挖掘针对的对象是“数据仓库”，指的就是数据量很大的数据。为此还提出了钻取、抽析等多种分析方法和理论。现在看来个人感觉大数据应该就是从数据挖掘的基础上发展起来的，只不过大数据面对的数据量比数据挖掘理论盛行时还要大很多个数量级吧。

正因为大数据的特殊性，所以已经不能用通常的理论和方法来处理了。

首先是大数据的存储。前面说了，大数据面对的数据量异常大，不是几块几个TB的硬盘就可以随随便便容纳得了的。而且个人电脑上的存储设备一般也无法容纳如此大量的数据。为了能够提供快速、稳定地存取这些数据，至少得依赖于磁盘阵列。同时还得通过分布式存储的方式将不同区域、类别、级别的数据存放于不同的磁盘阵列中。

以往的关系型数据库受限于设计模式的限制，一般只考虑到了单机的数据存储方式，即不管数据量大与小，一定会让一台机器存储和管理所有数据（即便是做集群，集群中的每个节点实际上也是要把所有的数据再存储一遍）。而每台机器上可以承载的存储设备是有限的，一般也不会超过几个TB。而且一旦某个数据库的数据量和文件的尺寸暴增到一定程度后，数据的检索速度就会急剧下降。

为了应对这个问题，很多主流的数据库纷纷提出了一些解决方案。如MySQL提供了MySQL proxy组件，实现了对请求的拦截，结合分布式存储技术，从而可以将一张很大的表中的记录拆分到不同的节点上去进行查询。对于每个节点来说，数据量不会很大，从而提升了查询效率。

而Oracle针对大数据公开可查询的资料是“大数据机X3-2+Hadoop+NoSQL”的解决方案。在这套方案中，Oracle提供了拥有288个 CPU 、1152G内存、648T硬盘的无比豪华的服务器配置，同时结合Hadoop和NoSQL等技术对其中存储的大数据进行分析：

怎么说那，个人感觉Oracle完全是土豪策略：有钱你才能玩大数据，而有了钱你就买个特别牛×的机器，这样你就不怕数据大了。实际上Oracle并没有从根儿上专门为大数据而动过手术。

而对于像MongoDB、HBase等非关系型数据库，由于摆脱了表的存储模式，再加上起步较晚，所以对大数据的响应要比关系型数据库快的多。

MongoDB和HBase天生都支持分布式存储，即将一份大的数据分散到不同的机器上进行存储，从而降低了单个节点的存取压力。

所以在实际应用中，如果是针对老的系统尤其是老的数据库进行大数据存储及分析，那么只能考虑横向拆分关系型数据库中的数据了；如果是准备建设新的系统，那么最好采用MongoDB，并使用分片集特性来存储大数据。HBase也可以，但入门学习成本可能稍微有一些高。

特别声明：本文仅供交流学习 , 版权归属原作者，并不代表蚂蚜网赞同其观点和对其真实性负责。若文章无意侵犯到您的知识产权，损害了您的利益，烦请与我们联系vmaya_gz@126.com，我们将在24小时内进行修改或删除。

û46 ñ1730 20

《刀锋无双》飞跃巅峰放纵骄傲机甲火箭无敌上线
神行九州，没有坐骑，怎能成行！在天拓游戏独代、深圳易帆互动研发的热血狂战动作手游《刀锋无双》中，坐骑是主公在暗夜三国中奋勇前行不可或缺的
地平线无际 ⋅2879人浏览 ⋅一个月前
贺岁手游三打白骨精猴年开门红五浪液庆功酒奉
2016春节贺岁电影《西游记之孙悟空三打白骨精》自上映以来备受好评，票房现已突破11亿大关。而由电影正版授权改编而成并同档期贺岁的手游《
╰暴走的兔子╯ ⋅2834人浏览 ⋅一个月前
萌色生香元气满满《元气封神》预约火热开启
由胡莱游戏发行、红月互娱开发的封神题材二次元策略回合制手游《元气封神》，于今日（7月28日）上线官方预约站（），曝光独一无二的梦幻赛璐璐
我要变勇敢 ⋅4676人浏览 ⋅一个月前
《全民奇迹MU》土系神迹碾压流山岳之力重磅出击
火、土、水、风、冰、雷，自六系元素降临奇迹大陆，向勇士们展现出它们强大而爆裂的能力之后，荧石、魂石、试炼、神迹等越来越多关于元素奥秘的新
思念幻化成海 ⋅2365人浏览 ⋅一个月前
《恋舞OL》樱色初恋套装甜蜜初冬
《恋舞OL》樱色初恋套装温馨上架，甜蜜初冬粉色恋情。初冬来临，温馨福利。甜蜜情侣，美衣相伴。一起来看看这个初冬有那些美衣吧~《恋舞OL》
打个酱油卖个萌 ⋅1879人浏览 ⋅一个月前
最强机师《SD敢达战争要塞》Season2机师推荐
《SD敢达战争要塞》Season2开启不删档测试已经有了一段时间了，因为进行了全方位的大幅度革新，无论是机体系统还是机师系统都在给玩家们
哥帅但不是蟋蟀 ⋅3191人浏览 ⋅一个月前
完美复刻1.76版本9187《传奇世界正版H5》震撼来袭
哆可梦旗下平台9187在手游红海的大背景下，深度剖析手游产品细分市场，于八月份同期发行两款手游大作，丧尸文化+SLG手游《末日世界》与盛
采姑娘的小蘑菇 ⋅4960人浏览 ⋅一个月前
我来拯救世界《冰火幻想》iOS正版今日发布
小恶魔流落海外，龙女孤身被围，囧雪更是惨死在雪地之中！凛冬将至，异鬼来袭，世界该由谁来拯救？由天拓游戏独代、游艺先生研发的全剧情强策略冰
北朽暖栀 ⋅41人浏览 ⋅一个月前
散仙大人《道友请留步》喊你回家吃饭
又一波寒潮来袭，面对骤降十度的气温，你是否想念妈妈亲手做的一桌热菜？当你想念家人的时候，《道友请留步》中的亲友们也在想念着你。周年庆福利
漫步云海涧 ⋅1987人浏览 ⋅一个月前
《太极熊猫3：猎龙》史诗之战公布大型PVP战场
即将上线的《太极熊猫3：猎龙》是一款场景宏大，自由度极高的MMO手游大作，游戏史无前例地开创了巨幅地图设定，全领域自由飞行，全维度空战、
蓝颜子瑜 ⋅889人浏览 ⋅一个月前
独乐乐不如众乐乐《不服小天王》分享的快乐
漫漫人生路，我们都不是一个人在走，学会让人分享你我的所有，我们一定能交到更多的好朋友，这样的人生才更有乐趣。比如把乐趣《不服小天王》分享
一生荒唐 ⋅2533人浏览 ⋅一个月前
风暴战争特色玩法介绍CG视频首曝
风暴战争即将震撼开测啦！风暴战争是一款以西方魔幻战争为题材的融合多种要素的战争策略类手游，于今日首次曝光了出格CG视频。视频中，你将会看
风晴雪流成河 ⋅1850人浏览 ⋅一个月前
《射雕英雄传手游》新版本上线55开怒斩马飞飞
由万达院线游戏、完美世界联合发行，金庸正版授权青春武侠MMO《射雕英雄传手游》首部资料片“一代宗师”今日全平台震撼公测。还记得7月6日游
云纹梦纷蝶 ⋅2933人浏览 ⋅一个月前
致谢玩家提议《神无月》羁绊内测延长开启
盛大游戏超幻想冒险互动手游《神无月》上周开启了羁绊内测，这场在盛夏开启的邀约吸引了许多玩家参与。不仅内测参与人数节节攀高，在各大安卓试玩
你的眸中有星辰 ⋅1170人浏览 ⋅一个月前
《天堂：红骑士》韩服四榜登顶国服内测火热进行中
NC自研最新力作《天堂：红骑士》于12月8日韩服公测，短短三天就超越了众多kakao平台的游戏登顶AppStore和GooglePlay
思念幻化成海 ⋅747人浏览 ⋅一个月前
《魔女骑士团》封测邀你脱单之选全娘团动作手游
11月11日，全娘团暗黑动作手游《魔女骑士团》邀你参与。作为冰穹互娱2016年第四季度发行的纯3D动作手游，《魔女骑士团》将D&
看我发功喷飞你 ⋅1188人浏览 ⋅一个月前
仅限三次《消灭都市》大活跃6星念灵登场
在《消灭都市》的冒险之旅中，小雪和拓也可谓精诚合作，既需要运输员拓也的高超驾驶技术，也需要小雪与念灵沟通的能力，二者缺一不可。如果没有靠
地平线无际 ⋅2215人浏览 ⋅一个月前
血族手游新版本专题今日上线让你浴血奋战
开学之际，血族手游携全新玩法浴血归来，1.65全新版本专题“荣光の追击”今日重磅上线！神秘的血族世界，四大玩点的重启推新，让血裔们丢掉书
顶个蘑菇闯天下 ⋅3642人浏览 ⋅一个月前
《杀手Online》开始了新年小目标的制定
2017就是鸡年了，尽管是鸡年，我国的鸡在这种节日却也免不了面对一场场大规模的种族灾难。言归正传，在辞旧迎新的元旦，新的一年，新的开始，
如花的旋律 ⋅356人浏览 ⋅一个月前
马背上的战争65手游《全民骑战》古今坐骑谁最强
从有战争开始，人类的武器装备就在不断进化，而骑兵尽管在20世纪初被装甲部队所淘汰，但是纵观战争史，你会发现任何强大的帝国都离不开一支铁骑
漫步云海涧 ⋅1650人浏览 ⋅一个月前