大数据
葳玟桦茗
这个作者很懒,什么都没留下…
展开
-
Hive 数据类型(重点)
Hive 数据类型基本数据类型对于Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。集合数据类型[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-modKvmZa-1620303988786)(…/…/%E8%AF%BE%E7%A8%8B/%E5%A4%A7%E6%95%B0%E6%8D%AE/%E8%B5%84%E6%BA%90/Typora/%E转载 2021-05-06 20:45:26 · 119 阅读 · 0 评论 -
Hive常用交互命令
Hive常用交互命令帮助命令[dev1@hadoop102 ~]$ cd /opt/module/hive[dev1@hadoop102 hive]$ bin/hive -help"-e"不进入hive的交互窗口执行sql语句[dev1@hadoop102 hive]$ bin/hive -e "select id from default.student;""-f"执行脚本中sql语句(1)在/opt/module/data目录下创建hivef.sql文件[dev1转载 2021-05-06 20:09:03 · 128 阅读 · 0 评论 -
Hive的JDBC访问
beeline概述beeline 英[ˈbiːlaɪn] 美[ˈbiːlaɪn] n. (两地之间的)直线; 直路;Beeline是Hive新的命令行客户端工具,是基于SQLLine CLI的JDBC客户端。Hive客户端工具后续将使用Beeline 替代HiveCLI一般开发中不使用的原因:慢案例:查询数据库启动hadoop集群[dev1@hadoop102 ~]$ start-dfs.sh[dev1@hadoop103 ~]$ start-yarn.sh[dev1@原创 2021-05-06 19:50:17 · 106 阅读 · 0 评论 -
数据清洗
数据清洗什么是ETLETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程转载 2021-04-14 11:23:30 · 94 阅读 · 0 评论 -
Shuffle之2排序
思维导图hadoop排序特点实例:输入编写类结果排序概述Hadoop排序的特点Map Task和Reduce Task均会对数据(按照key)进行排序。默认排序是按照字典顺序,且实现该排序的方法是快速排序什么时候对数据进行排序?对于Map Task,它会将处理的结果暂时放到一个缓冲区中,当缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次排序,并将这些有序数据写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行一次合并,以将这些文件合并成一个大的有序文件。原创 2021-04-12 09:20:47 · 76 阅读 · 0 评论 -
Shuffle之1分区Partition
思维导图shuffle:定义patition:定义实例操作自定义partition类在Driver中添加调用自定义partition的代码和设置reduceTask的数量shuffle在MR中,Map方法之后,Reduce方法之前的数据处理过程称之为Shufflepatition要求将统计结果按照条件输出到不同文件中(分区)。reduceTask的数量如果reduceTask的数量> getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;原创 2021-04-12 09:18:15 · 212 阅读 · 0 评论 -
MapReduce详细工作流程
Map阶段Reduce阶段原创 2021-04-12 09:14:07 · 95 阅读 · 0 评论 -
MapReduce框架原理submit方法
debug的三步打断点进入debug模式进入下个断点要打断点的重要函数waitForCompletion() submit(); //1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 initialize(jobTrackAd原创 2021-04-12 09:02:02 · 83 阅读 · 0 评论 -
MapReduce框架原理面试题切片
思维导图数据切片的定义(逻辑上的,而不是磁盘或物理上的)与数据块(物理上的)的定义并行度—>好处—>是否越多越好–>切片数决定MapTask数据切片与数据块的区别数据切片是逻辑上的切分,不是磁盘上的(物理的)数据块是物理上的切分并行度定义:在计算机体系结构中,并行度是指指令或数据并行执行的最大数目。在指令流水中,同时执行多条指令称为指令并行好处:可以提高计算机的资源利用率是不是并行度越多越好?MapTask并行度决定机制:1)一个job的map阶原创 2021-04-12 08:58:53 · 91 阅读 · 0 评论 -
Shuffle之3 合并
Combine定义combiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducer作用瓶颈1:减轻网络压力瓶颈2:减少单一的Reducer的压力如果在同一个文档内 "cat"出现了3次,(“cat”,1)键值对会被生成3次,这些键值对会被送到Reducer那里。通过使用Combiner,这些键值对可以被压缩 为一个送往Reducer的键值对(“cat”,3)。现在每一个节点针对每一个词只会发送一个值到reducer,大大减少了shuffle过原创 2021-04-12 08:56:20 · 158 阅读 · 0 评论 -
NLineInputFormat案例分析与实现
NLineInputFormat案例分析与实现理解NLineInputFormat用于读hdfs中的文本文件,每次入读固定行数键是文件中行的字节偏移量,值是行本身。N 是每个 Mapper 收到的输入行数这里的键和值与TextInputFormat生成的一样编写Mapper类package com.dev1.nline;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org原创 2021-04-09 23:10:41 · 72 阅读 · 0 评论 -
KeyValueTextInputFormat案例分析与实现
理解KeyValueTextInputFormat处理每一行均为一条记录, 被分隔符(缺省是tab(\t))分割为key(Text),value(Text)例子:输入是一个包含4条记录的分片。其中——>表示一个(水平方向的)制表符。line1 ——>Rich learning formline2 ——>Intelligent learning engineline3 ——>Learning more convenientline4 ——>From the real原创 2021-04-09 23:08:23 · 93 阅读 · 0 评论