0905(047天 大数02 hadoop环境搭建)
每日一狗(田园犬西瓜瓜)
大数02 hadoop环境搭建
文章目录
1. Hadoop
1.1 什么事Hadoop?
三大核心组件
- HDFS::分布式存储
- MapReduce:海量离线分布式并行处理
- YARN:解决了分布式资源管理
三个发行版:
四个特点
- 高可靠。多副本机制
- 高可扩展。水平高效线性扩展
- 高效。高并行
- 高容错:失败的任务会被重新分发,数据会进行备份
不适合应用场景
- 不适合响应需求低延迟
- 不适合存储海量小文件(块)
- 不适合并发写入、文件的随机修改
1.2 基本使用步骤
1、搭建Hadoop集群环境,完成后可以通过web页面进行验证
2、通过Hadoop shell命令上传文件值hdfs集群中
3、通过继承开发环境导入Hadoop开发相关jar包,编写MapReduce程序导出jar包
4、启动Hadoop相关程序加载运行MapReduce的jar程序
1.3 搭建环境
操作系统:linux
1.4 二级标题
离线文件批处理:移动计算要比移动数据成本要低
2. 文件存储与管理HDFS
一般情况下HDFS只提供文件增删追加操作,没有修改这一说
2.1 应用场景
2.2 HDFS优点
高容错:多副本保存 适合批量处理,移动计算而不是移动数据,数据位置暴露给框架 适合大数据处理,是指MB到TB级别的数据文件 可构建在廉价计算机上,通过副本提高可靠性,提供了容错和恢复机制 流式地访问数据,提供一次写入多次读取的服务,没有修改操作
2.3 二级标题
2.4 二级标题
3. 一级标题
3.1 二级标题
3.2 二级标题
3.3 二级标题
3.4 二级标题
扩展小芝士
- test