第一次接触大数据

最新推荐文章于 2022-01-12 17:11:41 发布

woshiermingerming

最新推荐文章于 2022-01-12 17:11:41 发布

阅读量625

点赞数 2

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woshiermingerming/article/details/52002834

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.

数据单位 B KB MB GB TB PB EB ZB YB

基数 2 2 2 2 2 2 2 10 10

次方 0 10 20 30 40 50 60 21 24

关系是1024

2.

数据

公有：互联网

私有：政府、个人、医院、电力、公路、交通；

3.

数据收集（爬、抓数据）---存储---计算---分析挖掘---ETL（数据抽取、Transport转移、Load数据加载）---可视化---项目实战

4.

大数据特点：5v variety(不同结构)、velocity（数据流量大）、volume（大容量）、variety（价值）、veracity（数据真实性）；

5.

coludera（hadoop开发）

Hortonworks（hadoop正式发布公司）

MAPReduce（MP）

hadoop离线

spark在线离线都可以

6. *优势

HIVE *高级脚本式语言高度扩展能够存储和处理PB级数据

hadoop、mapreduce *分布式处理框架分为高可靠性采用冗余存储能够自恢复

Map和Reduce两个阶段

hadoop HDFS 分布式文件存储数据分布在灵活性可存储各类数据

多个节点上自备份自恢复经济型采用普通PC开源软件

7.

大数据就业三个方向

我们是大数据开发（主要是学会对框架技能的使用） java + linux +SQL 考验的是对框架的使用

也是职位最多的（数据工程师）需要Java功底深厚

集群监控运维保障（大数据运维工程师） linux 和监控报警手段侧重linux和架构对java考察相对较弱

数据挖掘（大数据算法工程师）门槛高薪资高重算法能帮助做一些锦上添花的事情

8.

数据分片（一台存不下多台存储）

9.

H adoop分布式编程由

分布式文件系统 HDFS

资源分配系统 Yarn

分布式运算框架 MapReduce

10.

Hadoop是开源软件基金会开发

运行于大规模服务器上

大量存储、计算、分析

分布式存储和分布式框架（分布式是多个硬件和服务器同时工作）；

11.

*mahout(驾驭大象的人)算法库写自己的算法。做推荐的

*HBASE hadoop的补充是一个实时计算的的数据库

查询一条数据时间20ms-50ms；

*HIVE（蜂巢）仓库存数据用的；

bigtop（红房子）打包和编译的；

avro（带翅膀的三角）跨平台序列化和反序化的组件接口序列化开发工具；

序列化（内存和硬盘的相互传递）；了解

zookepper（拿铁锹的人）分布式协调和管理用；

oozie（工作流）

pig（）

flume(日志采集基础)；

sqoop（ETL的工具）；

Drill/Impala 内存SQL引擎，Dremel开源实现

BigTop：Hadoop生态系统打包分发与测试

Lucence：全文搜索引擎

Nutch：爬虫系统

Thrift：网络接口开发工具。

12.

论文3篇是理论基础

BigTable HBase

Mapreduce Mapreduce

GFS HDFS

woshiermingerming

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。