大数据概况及Hadoop运行环境的搭建

xinxinyydss

已于 2023-11-28 14:19:08 修改

阅读量73

点赞数

文章标签：大数据

于 2023-11-24 16:10:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xinxinyydss/article/details/134600913

版权

1、大数据

1.大数据：是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合

1.主要解决海量的数据存储和分析计算的问题

2.数据单位

1.按大小：bit Byte KB MB GB TB PB EB ZB YB BB NB DB

3、大数据的四个特征

1. Volume(⼤数据量)：90% 的数据是过去两年产生

Velocity(速度快)：数据增长速度快，时效性⾼

Variety(多样化)：数据种类和来源多样化结构化数据、半结构化数据、⾮结构化数据

Value(价值密度低)：需挖掘获取数据价值

4、固有的属性

1. 时效性

2. 不可变性

5、⼤数据部门的组织结构

1. 平台组

1. Hadoop,Flume,Kafka,Hbase,Spark,Hive 等框架的平台搭建

2. 集群性能监控

3. 集群性能调优

2. 数据仓库组

1. ETL⼯程师 (数据清洗)

2. 数据分析(数据仓库建模)

3. 实时组

1. 实时的指标分析,性能调优

4. 数据挖掘组

1. 算法⼯程师

2. 推荐系统

3. ⽤户画像⼯程师

6、Hadoop

1. Hadoop是⼀个开源分布式系统架构，解决海量数据存储和海量数据计算的问题

2. 创始⼈：Doug Cutting

3. 2008年 - 成为Apache顶级项⽬

4. Hadoop发⾏版本

社区版：Apache Hadoop

Cloudera发⾏版：CDH

Hortonworks发⾏版：HDP

7、为什么使⽤Hadoop

1. ⾼扩展性

在集群间分配任务数据，可⽅便的扩展数以千计的节点

⾼可靠性

Hadoop底层维护多个数据副本

⾼容错性

Hadoop框架能够⾃动将失败的任务重新分配

低成本

Hadoop架构允许部署在廉价的机器上

灵活，可存储任意类型数据

开源，社区活跃

8、Hadoop的组成

1. hadoop 1.x

1. MapReduce(计算+资源调度)

2. HDFS (数据存储)

3. Common (辅助⼯具)

2. hadoop 2.x

1. MapReduce(计算)

2. Yarn (资源调度)

3. HDFS (数据存储)

4. Common (辅助⼯具)

9、HDFS (架构概述)

1. nn NameNode 存储⽂件的元数据, 如⽂件名,⽂件⽬录结构,⽂件属性(⽣成时间 ,副本数,⽂件权限),以及每个⽂件的块列表和块所在的DataNode等

2. dn DataNode 在本地⽂件系统存储⽂件块数据,以及块数据的检验和

3. 2nn Secondary NameNode 每隔⼀段时间对NameNode元数据备份

10. Yarn 架构概述

11. MapReduce 架构

1. Map 阶段并⾏处理输⼊数据

2. Reduce 阶段对Map结果进⾏汇总

12. ⼤数据的⽣态体系

1. 数据来源层

1. 数据库(结构化的数据) ⽂件⽇志(半结构化数据) 视频PPT 等(⾮结构化的数据)

2. 数据传输层

1. sqoop 数据传递 Flume⽇志收集 Kafka 消息队列

3. 数据存储层

1. HDFS存储

4. 资源管理层

1. Yarn资源管理

5. 数据计算层

1. MapReduce离线计算 -> Hive 数据查询

2. Spark Core 内存计算

1. 数据挖掘SparkMilib

2. 数据查询 Spark sql

3. 实时计算 Spark Streaming

3. Storm 实时计算

1. Flink

6. 任务调度层

1. Azkaban任务调度

7. 数据模型层

1. 数据可视化,业务应⽤

13. Hadoop运⾏环境搭建(重点)

1. 启动虚拟机hadoop101

2. 检查jdk是否已安装：java -version

4. 切换到安装包路径：cd /opt/software/并上传hadoop2.6.0.tar.gz

5. 解压安装包⽂件：tar -zxvf hadoop-2.6.0.tar.gz -C /opt/install/

6. 创建软链接：切换到install⽬录cd /opt/install 然后再创建软件链接 ln -s hadoop-2.6.0/ hadoop 7. 添加环境变量:vi /etc/profile，并在最后添加以下两⾏

export HADOOP_HOME=/opt/install/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

8. 使配置⽂件⽣效：source /etc/profile

9. 测试试是否安装成功：hadoop version

10. 测试本地运⾏模式：当前在/opt/install/hadoop/⽬录下，创建输⼊⽬录：mkdir wcinput

11. 创建wc.input⽂件：cd wcinput/;vi wc.input，并在⽂件中输⼊任意单词，然后保存退出

12. 切换到/opt/install/hadoop⽬录：cd /opt/install/hadoop

13. 执⾏程序：hadoop jar share/hadoop/mapreduce/hadoopmapreduce-examples-2.6.0.jar wordcount wcinput wcoutput

14. 查看输出⽂件：cat wcoutput/*

15. 清理测试⽂件并停机做快照

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据概况及Hadoop运行环境的搭建

6. 创建软链接：切换到install⽬录cd /opt/install 然后再创建软件链接 ln -s hadoop-2.6.0/ hadoop 7. 添加环境变量:vi /etc/profile，并在最后添加以下两⾏。1. nn NameNode 存储⽂件的元数据, 如⽂件名,⽂件⽬录结构,⽂件属性(⽣成时间 ,副本数,⽂件权限),以及每个⽂件的块列表和块所在的DataNode等。12. 切换到/opt/install/hadoop⽬录：cd /opt/install/hadoop。
复制链接

扫一扫

xinxinyydss CSDN认证博客专家 CSDN认证企业博客

码龄3年

51: 原创

118万+: 周排名

13万+: 总排名

9769: 访问

: 等级

581: 积分

61: 粉丝

70: 获赞

14: 评论

71: 收藏

私信

关注

热门文章

最新评论

java 实用类
CSDN-Ada助手: 恭喜您发布了第19篇博客，标题为“java 实用类”。您的持续创作是非常令人欣慰的，不断分享对java实用类的理解和经验，对读者来说是非常有益的。希望您在以后的创作中，可以更深入地探讨java实用类的应用场景，或者结合实际案例进行分析，这样会更加丰富和实用。期待您更多精彩的分享，加油！
java输入和输出的处理
CSDN-Ada助手: 恭喜您写了第20篇博客！标题为“java输入和输出的处理”。看来您对Java的输入和输出处理有着深入的了解。不仅如此，您连续创作了这么多篇博客，真是非常令人钦佩！在下一步的创作中，或许可以探讨一下Java中不同的输入输出流类型及其应用场景，或者分享一些常见的输入输出问题的解决方案。期待您在接下来的文章中继续展示您的才华！加油！
java 异常
CSDN-Ada助手: 恭喜您写了第16篇博客！标题“java 异常”让我很感兴趣。在这篇博客中，您探讨了Java异常的话题，这对于我们这些想要更深入了解Java编程语言的人来说是非常有价值的。我希望您能继续保持创作的热情，并继续分享您在Java异常处理方面的见解和经验。作为下一步的创作建议，您可以考虑探索一些常见的Java异常类型，以及如何有效地处理它们。再次恭喜您，期待您未来更多精彩的博客！
java 接口
CSDN-Ada助手: 恭喜您写了第15篇博客！标题为“java 接口”的内容也让我受益匪浅。您的深入解析和清晰的讲解让我更加理解了Java接口的概念和用法。不过，或许在您的下一篇博客中，您可以考虑分享一些实际应用场景或者案例，以便读者更好地理解接口在实际项目中的应用。希望您继续保持创作热情，期待您的下一篇博客！
java方法重写和多态
CSDN-Ada助手: 恭喜您写了第14篇博客！标题“java方法重写和多态”听起来非常有趣和深入。您对这个主题的解析一定非常出色。希望您能继续保持创作的热情和努力，分享更多关于Java编程的知识和经验。作为下一步的创作建议，我建议您可以考虑探讨一下Java中的异常处理机制或者深入研究一下Java的线程和并发编程。这些主题都是非常重要且具有挑战性的，我相信您一定能够给读者带来更多有价值的内容。再次恭喜您，期待您未来更多精彩的博客！持续努力，您一定会取得更大的成功！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。