- 博客(7)
- 资源 (9)
- 收藏
- 关注
转载 hive join的类型和用法
关键字:Hive Join、Hive LEFT|RIGTH|FULL OUTER JOIN、Hive LEFT SEMI JOIN、Hive Cross JoinHive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替。注意:Hive中Join的关联键必须在ON ()中指定,不能在Wher...
2018-06-26 17:04:12 879
转载 distribute by sort by
一:order byorder by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Order by操作。二:sort bysort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置...
2018-06-26 16:30:41 8577
原创 本地安装spark环境,pycharm看spark源码
https://blog.csdn.net/funfun0/article/details/77802590
2018-06-21 21:56:28 347
原创 windows10修改git 密码
https://jingyan.baidu.com/article/642c9d3435a6e9644a46f732.html windows 7 git 命令 git config --global credential.helper wincred
2018-06-21 17:48:13 1235
转载 Python绘图问题:Matplotlib中%matplotlib inline是什么、如何使用?
%matplotlib inline是一个魔法函数(Magic Functions)。官方给出的定义是:IPython有一组预先定义好的所谓的魔法函数(Magic Functions),你可以通过命令行的语法形式来访问它们。可见“%matplotlib inline”就是模仿命令行来访问magic函数的在IPython中独有的形式。magic函数分两种:一种是面向行的,另一种是面向单元型的。行ma...
2018-06-10 13:56:23 1918
转载 共用y轴的双图形绘制
我数据分析的时候主要是stacked bar、bar和line形式的放在一张图上。stacked bar若用matplotlib实现的话会比较复杂(多组) 先上图吧 def plot_stacked_bar(left_data, right_data): width = .3 axe = plt.subplot(111) axe = left_data.plot(kind=...
2018-06-10 13:49:59 900
转载 统计小于20M的hdfs文件明细
统计HDFS文件数量大小,小于20M文件数量hadoop fs -du -h / # 统计文件大小hadoop fs -count / # 统计文件数量,返回的数据是目录个数,文件个数,文件总计大小,输入路径hadoop fs -ls -R /path/data | grep ^- > ~/data.txt #统计所有文件的信息,过滤文件夹,只统计文件.因为使用ls -l 之后,可以看到文件...
2018-06-05 15:19:36 714
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人