自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 将hadoop上文件下载到Windows上的命令:sz

将hadoop上文件下载到Windows上的命令:sz

2020-11-24 19:56:03 120

原创 IDEA中提升成属性快捷键Ctrl+Alt+f

IDEA中提升成属性快捷键Ctrl+Alt+f

2020-11-20 19:46:09 246

原创 更改根目录权限命令

hadoop fs -chmod -R 777 /

2020-10-30 18:10:31 110

原创 union与union all区别

union不去重,union all 去重开窗函数在最后lead函数往第几行,拿到当行时间戳:10位代表秒group by只能查询三种数据:group by 后面跟的,常量,聚合函数

2020-10-20 14:56:39 7

原创 dwd层数据特点

dwd层数据除了维度信息之外,还要放度量值

2020-10-15 15:48:04 56

原创 mkdir: Call From hadoop102/192.168.6.102 to hadoop102:8020 failed on connection exception: java.net.

mkdir: Call From hadoop102/192.168.6.102 to hadoop102:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused少走弯路之出现这个BUG是不是你的hdfs没有启起来。。。。。。。这个BUG很脑残,哈哈...

2020-10-08 10:32:45 735

原创 DataFrame初学理解

类似于数据库的二维表(即每一列都带名称和类型)DataFrame可以从很多的数据源构建,比如:已存在的RDD,结构化文件,外部数据库,hive表

2020-09-29 19:48:08 67

原创 SparkSession初学理解

SparkSession与sc(Spark Context)类似,是SQL查询起始点,程序的入口。SparkSession内部封装了SparkContext,所以底层计算还是由SparkContext完成的,当我们使用spark-shell的时候,spark会自动创建一个叫spark的sparkSession,就像我们也可以自动获取一个sc来表示sparkContext一样。...

2020-09-29 18:58:59 34

原创 IDEA实现类的快捷键CTRL+h

IDEA实现类的快捷键CTRL+h

2020-09-26 11:28:04 580

原创 as select根据查询结果创建表,查询的结果会添加到新创建的表中

根据查询结果创建表(查询的结果会添加到新创建的表中)create table if not exists student3as select id, name from student;

2020-08-19 19:20:05 98

原创 insert into与insert overwrite

insert into:以追加数据的方式插入到表或分区,原有数据不会删除insert overwrite:会覆盖表中已存在的数据

2020-08-19 19:04:46 94

原创 subString()方法的使用

substring()方法做了什么?substring(beginIndex,endIndex)方法返回一个从beginIndex到endIndex-1的字符串String x = “abcdef”;x = x.substring(1,3);System.out.println(x);输出:“bc”

2020-08-13 16:57:35 173

原创 分区之按照手机号分区

当需要将统计结果输出到不同的文件中就需要自定义分区并且设置://8 指定自定义分区器job.setPartitionerClass(ProvincePartitioner.class); //9 同时指定相应数量的ReduceTask job.setNumReduceTasks(5);默认分区器HashPartitioner,自定义一个分区类ProvincePartitioner并且让这个类继承Partitioner,还要实现getPartition()方法public int g

2020-08-13 16:56:52 74

原创 CombineTextInputFormat

CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。2)实现过程(1)不做任何处理,运行1.6节的WordCount案例程序,观察切片个数为4。(2)在WordcountDriver中增加如下代码,运行程序,并观察运行的切片个数为3。(a)驱动类中添加代码如下:// 如果不设置InputFormat,它默认用的是TextInputFormat.classjob.setInputFormat

2020-08-13 12:20:13 47

原创 mr向集群提交mr任务的两种方式

方式一:把IDEA中写好的程序打jar包然后托入集群中执行如下命令运行:Hadoop jar wc.jar 全类名 /输入路径 /输出路径hadoop jar wc.jarcom.atguigu.wordcount.WordCountDriver /user/atguigu/input /user/atguigu/output方式二:在Windows上向集群提交任务(1)需要在WordCountDriver添加一些配置信息设置hdfs NameNode的地址:conf.set(“fs.def

2020-08-12 19:04:52 427 1

原创 快捷键之实现未实现的所有方法

alt+enter

2020-08-12 16:40:10 63

原创 创建TableBean目的实现序列化

自定义bean对象实现序列化接口(Writable)public class TableBean implements Writable {private String id; //订单idprivate String pid; //产品idprivate int amount; //产品数量private String pname; //产品名称private String flag; //判断是order表还是pd表的标志字段...

2020-08-12 16:36:04 33

原创 Nullwritable

NullWritable是Writable的一个特殊类,实现方法为空实现,不从数据流中读数据,也不写入数据,只充当占位符,如在MapReduce中,如果你不需要使用键或值,你就可以将键或值声明为NullWritable,NullWritable是一个不可变的单实例类型。比如,我设置map的输出为<key,空>不能使用new NullWritable()来定义,获取空值只能NullWritable.get()来获取...

2020-08-11 20:03:41 277

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除