- 博客(6)
- 收藏
- 关注
原创 Hive | 基于Python预处理、用Hive对movielens数据集进行分析
概述熟悉Hive的小伙伴都知道,企业中对Hive进行数据预处理ETL,最多的是用UDF和Python脚本。本文主要是实践在Hive中使用Python脚本进行数据清洗。数据集来源:http://files.grouplens.org/datasets/movielens/当然,下面的分析内容如果用spark,一句就搞定了。需求分析ml-100k中的数据有四个字段,分别对应:userId(用户...
2019-12-20 23:02:32 1028 1
原创 截图加文字详细记录Idea导出jar包的方式
打开Project StructureArtifacts–》+ --》JAR–》From modules with dependencies…选择目标Class,之后点击OK或APPLY直到回到主界面主菜单上Build–》Build Artifacts,选择Build或者Rebuild项目下out目录里,展开就能看到了...
2019-12-20 17:53:09 165
原创 Hive_Hive企业使用高级优化/调优
文章目录概述FetchTask默认配置修改配置为大表创建子表理解方式外部表和分区表外部表分区表注意概述本文总结记录Hive企业使用是常见的优化策略。FetchTask为什么有的sql执行mapreduce,而有的却不?比如执行select * 的时候不会跑MR,这其实就是优化,属于FetchTask。默认配置在hive.default.xml.template中,搜索hive.fetc...
2019-12-19 21:36:04 616
原创 大数据什锦_ORC&PARQUET_按列存储_Columnar VS Row-based
文章目录概述概述本文通过使用Hadoop的数据仓库工具Hive中的不同存储格式,比较按行存储和按列存储的不同。按列存储使用的是企业中最长见的ORC和PARQUET。...
2019-12-14 16:50:34 328
原创 Hadoop集群杂项_时间同步
文章目录方法概括具体步骤1. 时间服务器(root)(1)检查ntp是否安装(2)修改ntp配置文件(3)修改/etc/sysconfig/ntpd 文件(4)启动ntp(5)设置ntpd服务开机启动2. 其它机器配置(root)对每台机器建立定时任务测试方法概括时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时同步,如,每隔十分钟同步一次时间。具体步骤准备阶段...
2019-12-14 11:15:32 321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人