2019年03月_hadoop程序猿

原创 mongodb 官网示例

1.安装最新版本为4.0.6，装完可以执行mongo -version查看下载tar包，解压完确实够简洁呀，就bin目录，然后在/etc/profile配下环境变量source下就ok！创建db目录mkdir -p /data/db官网还让创建/var/lib/mongo和/var/log/mongo，创建完启动发现这俩目录也没写入数据。2.启动临时启...

2019-03-25 22:14:43 381

原创 spark sql join

目录join的类型join的重载方法join示例inner joinouter join&full join&fullouter joinleft join & leftouter joinright join& rightouter joinleftsemi joinleftanticross joinjoin的类...

2019-03-20 21:55:54 913

原创 spark sql Dataset&Dataframe算子大全

目录Dataset&DataframeRDD,Dataset,Dataframe互相转换Dataset&Dataframe算子show()na() 返回包含null值的行stat()sortWithinPartitions()sort()&order by()hint()selectExpr()filter&w...

2019-03-20 21:35:52 5379

原创 spark sql 官网示例

目录 1.Dataset/Dataframe基本操作2.RDD转Dataset/Dataframe3.不同数据集对于spark，无论core还是streaming，亦或sql，structed streaming最好的资料就是官网示例+源码本人的spark sql的学习路线是1.官网示例(入门，了解)2.Dataset/Dataframe的各个方法(...

2019-03-20 21:08:57 1440

原创《SQL 必知必会》读书笔记

目录检索数据排序检索数据过滤数据高级过滤数据用通配符进行过滤创建计算字段使用函数处理数据汇总数据分组数据使用子查询联结表(join)创建高级联结组合查询(union)插入数据更新和删除数据创建和操纵表使用视图检索数据SELECT prod_name FROM products; //查询单列SELECT ...

2019-03-16 23:39:20 347

原创 hive存储格式textfile到orc

hive默认存储格式为textfile，orc是一种列式存储格式，读，写，处理数据上比textfile更有优势,更节省磁盘空间由于orc的表不能直接load导入，所以我们仍需要textfile的表将textfile表的查询结果导入到orc表create table api_orc stored as ORC TBLPROPERTIES("orc.compress"="ZLIB")...

2019-03-14 11:42:22 7308

原创 CDH 5.14x 配置spark sql查询hive

配置idea spark sql连接hive1.首先将/etc/hive/conf/的hive-site.xml复制到项目的resources下2.添加maven依赖到pom.xml文件，不仅需要添加spark-sql，还需要添加spark-hive，spark版本2.2.0，scala版本2.10 <!-- https://mvnrepository.co...

2019-03-13 14:03:54 1787

原创 CDH 5.14x 配置hive on spark

cdh版本为5.14网上搜hive on spark大都5.9之前或更早，看着挺麻烦的话不多说首先在CDH界面，hive配置搜索execution默认时MR，选spark就ok了然后提示过期配置重启服务，重启的话重启失败，报如下错误还需要配置服务依赖，找到下面这个默认时none，选择spark，重启就ok了。进hive cli，随便执行一个sql语句...

2019-03-04 15:00:40 2326 4

zhaolq1024的博客