Hive
张金玉
这个作者很懒,什么都没留下…
展开
-
python hdfs操作
hdfs dfs -ls /user/spark/ hdfs dfs -get /user/spark/a.txt /home/spark/a.txt #从HDFS获取数据到本地 hdfs dfs -put -f /home/spark/a.txt /user/spark/a.txt #从本地覆盖式上传 hdfs dfs -mkdir -p /user/spark/home/datetime=...原创 2019-11-03 23:16:04 · 583 阅读 · 0 评论 -
anaconda环境,pyhive使用
57 wget http://files.grouplens.org/datasets/movielens/ml-latest-small.zip 59 unzip ml-latest-small.zip 60 cd ml-latest-small 63 hdfs dfs -mkdir /hive_operate 64 hdfs dfs -mkdir ...原创 2019-11-03 22:59:09 · 769 阅读 · 0 评论 -
Hive数据倾斜及调优
Hive中的数据倾斜和优化 常见的优化 1大表转化为小表,充分利用临时表 合理的利用分区表+外部表 数据存储格式,压缩的配置 SQL语句的优化 join---尽量使用map join filter 先过滤再处理 开启并行 hive.exec.parallel ->修改为true,开启并行 hive.exec.parallel.thread.number 设置并行的个数 开启JVM重用...原创 2019-04-07 19:47:01 · 397 阅读 · 0 评论