Hadoop系列
发表关于Hadoop相关的技术博客
pomelorange
相信所以看见,改变始于当下
展开
-
HBase | HBase从介绍到Java客户端开发
文章目录HBase入门认识HBase介绍HBaseHBase架构RegionServer集群结构HBase逻辑存储结构HBase物理存储结构HBase安装前期准备HBase安装步骤Hbase启动HBase验证备份masterHBase命令HBase 命令介绍HBase Shell命令介绍status命令命名空间namespace相关命令介绍create_namespace命令drop_namesp...原创 2020-01-30 16:35:24 · 2491 阅读 · 0 评论 -
Hive | 基于Python预处理、用Hive对movielens数据集进行分析
概述熟悉Hive的小伙伴都知道,企业中对Hive进行数据预处理ETL,最多的是用UDF和Python脚本。本文主要是实践在Hive中使用Python脚本进行数据清洗。数据集来源:http://files.grouplens.org/datasets/movielens/当然,下面的分析内容如果用spark,一句就搞定了。需求分析ml-100k中的数据有四个字段,分别对应:userId(用户...原创 2019-12-20 23:02:32 · 1045 阅读 · 1 评论 -
Hive_基于Hive的网站日志分析
文章目录12原创 2019-12-21 10:22:59 · 1429 阅读 · 0 评论 -
Hive_Hive企业使用高级优化/调优
文章目录概述FetchTask默认配置修改配置为大表创建子表理解方式外部表和分区表外部表分区表注意概述本文总结记录Hive企业使用是常见的优化策略。FetchTask为什么有的sql执行mapreduce,而有的却不?比如执行select * 的时候不会跑MR,这其实就是优化,属于FetchTask。默认配置在hive.default.xml.template中,搜索hive.fetc...原创 2019-12-19 21:36:04 · 637 阅读 · 0 评论 -
大数据什锦_ORC&PARQUET_按列存储_Columnar VS Row-based
文章目录概述概述本文通过使用Hadoop的数据仓库工具Hive中的不同存储格式,比较按行存储和按列存储的不同。按列存储使用的是企业中最长见的ORC和PARQUET。...原创 2019-12-14 16:50:34 · 346 阅读 · 0 评论 -
Hadoop集群杂项_时间同步
文章目录方法概括具体步骤1. 时间服务器(root)(1)检查ntp是否安装(2)修改ntp配置文件(3)修改/etc/sysconfig/ntpd 文件(4)启动ntp(5)设置ntpd服务开机启动2. 其它机器配置(root)对每台机器建立定时任务测试方法概括时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时同步,如,每隔十分钟同步一次时间。具体步骤准备阶段...原创 2019-12-14 11:15:32 · 347 阅读 · 0 评论