自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (9)
  • 收藏
  • 关注

转载 hive join的类型和用法

关键字:Hive Join、Hive LEFT|RIGTH|FULL OUTER JOIN、Hive LEFT SEMI JOIN、Hive Cross JoinHive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CROSS JOIN,但这两种JOIN类型也可以用前面的代替。注意:Hive中Join的关联键必须在ON ()中指定,不能在Wher...

2018-06-26 17:04:12 879

转载 distribute by sort by

一:order byorder by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Order by操作。二:sort bysort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序,并且设置...

2018-06-26 16:30:41 8577

原创 本地安装spark环境,pycharm看spark源码

https://blog.csdn.net/funfun0/article/details/77802590

2018-06-21 21:56:28 347

原创 windows10修改git 密码

https://jingyan.baidu.com/article/642c9d3435a6e9644a46f732.html  windows 7 git 命令 git config --global credential.helper wincred

2018-06-21 17:48:13 1235

转载 Python绘图问题:Matplotlib中%matplotlib inline是什么、如何使用?

%matplotlib inline是一个魔法函数(Magic Functions)。官方给出的定义是:IPython有一组预先定义好的所谓的魔法函数(Magic Functions),你可以通过命令行的语法形式来访问它们。可见“%matplotlib inline”就是模仿命令行来访问magic函数的在IPython中独有的形式。magic函数分两种:一种是面向行的,另一种是面向单元型的。行ma...

2018-06-10 13:56:23 1918

转载 共用y轴的双图形绘制

我数据分析的时候主要是stacked bar、bar和line形式的放在一张图上。stacked bar若用matplotlib实现的话会比较复杂(多组) 先上图吧 def plot_stacked_bar(left_data, right_data): width = .3 axe = plt.subplot(111) axe = left_data.plot(kind=...

2018-06-10 13:49:59 900

转载 统计小于20M的hdfs文件明细

统计HDFS文件数量大小,小于20M文件数量hadoop fs -du -h / # 统计文件大小hadoop fs -count / # 统计文件数量,返回的数据是目录个数,文件个数,文件总计大小,输入路径hadoop fs -ls -R /path/data | grep ^- > ~/data.txt #统计所有文件的信息,过滤文件夹,只统计文件.因为使用ls -l 之后,可以看到文件...

2018-06-05 15:19:36 714

概率论与数理统计(第四版)浙大 盛骤

机器学习所需-概率论与数理统计(第四版)浙大 盛骤

2017-08-27

数理统计学简史 陈希孺

机器学习所需-数理统计学简史 陈希孺

2017-08-27

求导与积分课件

机器学习所需-求导与积分课件

2017-08-27

机器学习数学基础(全集)

机器学习数学基础(全集),包括概率论与数理统计,数学统计简史,高数、矩阵等

2017-08-27

Spark源码解读迷你书

Spark源码解读迷你书

2017-05-29

Hadoop源代码分析(完整版)

Hadoop源代码分析(完整版)

2017-05-27

MapReduce与Spark异同点和优势比较

MapReduce与Spark异同点和优势比较

2017-05-27

AVA API官方文档中文版

JAVA API官方文档中文版

2017-05-27

jQuery_API(速查表)

jQuery_API(速查表)

2017-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除