http://www.cstor.cn/textdetail_4823.html
什么是大数据?
大数据技术:从各种各样类型的数据中,快速获得有价值信息的能力。
大数据的特点:
1、 (Volume)数据体量巨大,从TB级别到PB级别;
2、 (Variety)数据类型繁多,比如有网络日志,视频,图片,地理位置等;
3、 (Value)价值密度低,以视频为例,在连续不间断监控过程中,有用的数据可能只有1到2秒;
4、 (Velocity)处理速度快,1秒定律(对处理速度有妖气,一般都要在秒级时间内分析出结果,时间太长就失去价值),这个特点是大数据处理技术和传统的数据挖掘技术最大的区别。
大数据的结构:
云架构 | 功能分布 | 流行软件 |
SaaS | 分布式数据挖掘 | Mahout |
PaaS | 分布式处理 | MapReduce |
分布式数据库 | HBBase | |
IaaS | 云存储和虚拟化 | HDFS,cStor; VMWare, OpenStack |
http://zh.wikipedia.org/wiki/大數據
大数据(Wiki):所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成文人类所能解读的信息。
在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合合并后进行分析可以得出许多额外的信息和数据关系性,可用来察觉商业趋势,判断研究质量,避免疾病扩散,打击犯罪,测定实时交通路况等。
大数据带来的挑战在于实时处理,而数据本身也从结构性数据转向了非结构性数据的变化,例如手机上传的照片和视频。