海量数据处理--大数据处理概论

一、大数据的定义
大数据普通的分析维度:

1、数据量(大容量):数据量大

2、数据的速度(高效性):数据的实时性

3、数据的多样性(多类型):数据的类型多种多样,有以关系型数据库中的数据为代表的结构化数据和以日志型数据为代表的非结构化数据,同时也有音频和视频等为代表的多媒体非结构化数据。

4、低价值密度(低密度):数据量大,但是价值米读比较低,需要从海量的数据中精确的定位到某个人或者事物在这一小段时间范围内的数据,进行进一步的分析与处理。

5、真实性(信息有效性)

二、大数据的结构类型

大数据包括:

1、结构化

2、半结构化

3、准结构化

4、非结构化数据

结构化数据:典型的就是以关系型数据库为代表的二维数据表格、一般被用于多种网站和系统的后台的数据库中。

半结构化数据:包括关系型数据库和日志型纯文本数据

准结构化:可以理解为具有一定的数据结构类型,典型的是XML、HTML和JSON

非结构化数据:办公文档、XML、HTML、JSON、各类报表、图片信息,音频信息、视频信息、服务器日志信息、纯文本数据等。

三、大数据处理平台的基础架构

大数据梳理平台的基础结构包含的基本能力组件:

1、数据聚合

2、文件存储

3、数据存储

4、API

5、数据分析与计算

6、平台管理与监控

四、大数据处理中的存储技术

1、提升大数据存储的容量

a、提升单磁盘的容量

b、提升多磁盘环境下系统的整体存储容量

2、提升大数据存储的吞吐量

a、分布式缓存

b、数据存储本地化

c、数据存储分布式

d、提升分布式存储的宽带

e、提升分布式存储的I/O性能

f、提升分布式存储的并发

五、大数据处理中的计算技术

1、多处理技术

2、并行计算

3、高并发计算

4、离线批处理计算

5、在线实时计算

六、大数据处理中的容错性

1、数据存储容错性

1)、提高服务器磁盘的容错性

硬件:磁盘镜像和磁盘双工

2)、提高基于冗余的数据容错性

典型场景:集群

3)提高基于数据镜像的数据容错性

方案:定期将数据备份下来形成数据镜像

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

原克技术

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值