![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 78
借点头发吧
这个作者很懒,什么都没留下…
展开
-
HBase || DML DDL
数据模型: 命名空间: 类似于 DatabBase 概念,有多个表。 HBase两个自带的命名空间: hbase(内置的表) default(用户默认使用的命名空间) region 类似于表的概念,定义时只需声明时列族 row 行 由行键(一个)和列(多个)组成,数据是按照行键字典顺序存储的。 column 列 time stamp 时间戳 cell 单元格 字节码形式 DDL namespace 创建 create_namespace ‘xx’ 查看 describe_namespace ‘x...原创 2021-09-26 22:51:34 · 162 阅读 · 0 评论 -
Hive 使用 JDBC 方式访问 Hive || DDL || DML ||窗口函数 ||函数
启动metastore 启动hiveserver2 启动beeline原创 2021-09-08 17:55:32 · 252 阅读 · 0 评论 -
Yarn || 工作机制 || 作业提交过程 || 调度器和调度算法
作业提交 第 1 步:Client 调用 job.waitForCompletion 方法,向整个集群提交 MapReduce 作业。 第 2 步:YarnRunner向ResourceManger申请一个Application。 第 3 步:RM 给 YarnRunner 返回该 job 资源的提交路径和作业 id。 第 4 步: 提交 jar 包、切片信息和配置文件到指定的资源提交路径。 第 5 步:提交完资源后,向 RM 申请运行 MrAppMaster。 作业初始化 第 6 步:当 RM 收到 C.原创 2021-08-22 15:09:45 · 80 阅读 · 0 评论 -
MapeReduce编程规范、工作机制 ||FileInputFormat切片 || Shuffle || Partition ||WritableComparable排序 || Combiner
MapReduce编程规范 Mapper Mapper继承父类 输入数据是KV对 业务逻辑写在map方法中 输出数据是KV对 map()方法(MapTask进程)对每一个<K,V>调用一次 Reducer Reducer继承父类 输入数据是KV 业务逻辑写在reduce方法中) ReduceTask进程对每一组相同k的<k,v>组调用一次reduce()方法 Driver 用于提交整个程序到YARN集群,提交的是 封装了MapReduce程序相关运行参数的job对象 I原创 2021-08-21 23:13:22 · 144 阅读 · 0 评论 -
MapReduce本地wordcount案例
Mapper类 将MapTask传入的文本内容按行读入转换成String 根据划分方式将这一行切分成单个单词 将单词输出为 <单词,1> 1)读入转化为string:abc abc abc 2)切分 abc abc abc 3)输出:(abc,1)、(abc,1)、(abc,1) package com.mapreduce.wordcount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongW原创 2021-08-11 16:02:24 · 98 阅读 · 0 评论 -
NN 2NN 工作机制 || Fsimage 和 Edits || HDFS读写流程 ||CheckPoint 时间设置
NN 2NN 工作机制 元数据:描述数据的数据。 FsImage:在磁盘中备份元数据。 Edits :(只进行追加操作,效率很高) 每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到 Edits 中。 一旦 NameNode 节点断电,可以通过 FsImage 和 Edits 的合并,合成元数据。定期合并可以避免文件数据过大而导致的断电后恢复元数据时间过长。 引入节点SecondaryNamenode,专门用于 FsImage 和 Edits 的合并。 NameNode工作机制 1)第一阶段:N原创 2021-08-07 11:21:44 · 196 阅读 · 0 评论 -
HDFS 的API 操作 || 客户端环境准备 ||文件上传 (参数优先级测试) 下载 删除 更名和移动 文件查看
客户端环境准备 1)配置 HADOOP_HOME 环境变量 2)配置 JAVA_HOME 环境变量 3)在 IDEA 中创建一个 Maven 工程 HdfsClientDemo,并导入相应的依赖坐标+日志添加 4)创建包 5)创建 HdfsClient 类 6)执行程序 ...原创 2021-08-04 14:44:02 · 190 阅读 · 0 评论 -
Hadoop HDFS Shell操作
基本语法 hadoop fs +具体命令 hdfs dfs +具体命令 上传 1)-moveFromLocal:从本地剪切粘贴到 HDFS $ hadoop fs -moveFromLocal ./xxx.txt/xx 当前目录下的txt文件上传到xx目录下,当前目录下的txt文件被剪贴 2)-copyFromLocal:从本地文件系统中拷贝文件到 HDFS 路径去 $ hadoop fs -copyFromLocal xxx.txt /xx 当前目录下的txt文件上传到xx目录下,当前目录下的tx原创 2021-08-03 16:22:16 · 239 阅读 · 0 评论