- 博客(59)
- 收藏
- 关注
原创 HIVE 字段级血缘分析 写入Neo4j
Step 1. 利用HIVE Hook LineageLogger 获取字段之间的依赖关系注意:LineageLogger Hook 是Hive2.0版本之后存在的,如果HIVE版本不够需要升级HIVE版本。PS.CDH有的HIVE版本添加此功能下面以hive 2.5.3版本为例添加参数vim /usr/local/hive/conf/hive-site.xml<property&...
2019-06-28 19:11:06
12248
9
原创 HIVE SQL 计算留存率 思路
问题计算每日访问用户 在之后日期的 留存数基础表 每日访问用户IDcreate external table if not exists user_visit_date ( user_id bigint comment '用户ID') comment '每日访问用户'partitioned by (p_day date comment '分区日期')stored as parque...
2019-06-26 19:26:55
6208
2
原创 HIVE分区表添加字段cascade 执行时间过长出现bug
执行hive分区表添加字段命令alter table db_name.staging_user_log_minutesadd columns( `ext_main_business_line` string COMMENT '主业务线') cascade;因为历史分区量太大,所以执行命令花了很长的时间,正好又有新的调度任务写入新分区,导致有的分区没有添加上新的字段找到问题路径(通过...
2019-05-20 16:44:15
3983
原创 Sqoop 同步Parquet partition Hive表
import (mysql to hive)不能同步orc或parquet,能同步textfile类型way 1 (同步到hive表)sqoop import \ --connect jdbc:mysql://localhost:3306/mysql_db \ --username mysql_user \ --password mysql_pass \ --table m...
2019-05-09 21:58:57
2182
5
原创 hive collect_set 结果顺序不一致
HQL 例子select distinct channelfrom( select user_id, collect_set(channel) as channel from test_table group by user_id) t1;结果出现了[“APP”,“QQ浏览器”][“QQ浏览器”,“APP”]查看代码得知 collect_se...
2018-12-24 11:41:07
9745
10
原创 同一个sql 在Hive和spark-sql 跑出结果不一样记录
表Schemahive&gt; desc gdm.dim_category; name string 分类名称 org_code string ...
2018-10-23 13:10:41
4467
原创 Hive orc表 删除字段
说明Unfortunately, you can’t! The only way you can delete column from existing table is by using REPLACE COLUMNS keyword. But this can be done only for tables with a native SerDe (DynamicSerDe, Me...
2018-08-07 22:43:54
3930
原创 搭建CDH 阿里云 (Step 3: 搭建Hive)
安装官方文档yum install hive hive-metastore hive-server2 -yPS. 找一台压力小的机器 安装hive修改Hive配置文件vim /etc/hive/conf/hive-site.xml&lt;!-- HiveMetastore --!&gt;&lt;property&gt; &lt;name&gt;java...
2018-08-06 09:38:41
742
原创 Hive On Spark搭建(cdh)
hive 和 spark版本之前有强对应关系apache hive 和 spark 对应关系表 master 2.3.0 3.0.x 2.3.0 2.3.x 2.0.0 2.2.x 1.6.0 2.1.x 1.6.0 2.0.x 1.5.0 1.2.x 1.3.1 1.1.x 1.2.0...
2018-08-06 09:37:44
2747
原创 搭建CDH 阿里云 (Step 2: 启动yarn)
Yarn HA 文档Yarn HA 文档配置 Yarn 分配集群资源文档地址yarn-site.xml 配置&lt;!-- Base Configs --&gt; &lt;property&gt; &lt;description&gt;Classpath for typical applications.&lt;/description&gt
2018-08-04 14:18:18
749
原创 搭建CDH 阿里云 (Step 1: 启动hdfs)
准备动作在阿里云申请三台机器(Centos)安装Oracle JDK在阿里云申请三台机器(Centos)PS. 内存要大于4g,因为namenode启动的时候内存需要在每一台机器上配置域名vim&nbsp;/etc/hosts172.24.218.96 worker1172.24.218.97 worker2172.24.218.98 worker3...
2018-08-04 14:17:05
2057
原创 DAGScheduler之Job的提交划分Stage
整体流程图源码分析 spark 2.3getOrCreateParentStages 创建所有祖先Stage/** * Get or create the list of parent stages for a given RDD. The new Stages will be created with * the provided firstJobId....
2018-08-04 14:16:23
809
原创 MapReduce Shuffle 过程
Map从磁盘上读取数据执行map函数Partition分区(放进内存)Sort排序(内存排序)Combine结果(内存预聚合)将结果写到本地的磁盘上Merge(对磁盘上的文件合并)ReduceCopy (fetch 拉取数据直接放进内存)Merge (内存->磁盘)Merge (磁盘->磁盘)执行reduce函数word cou...
2018-08-04 14:15:32
572
原创 YARN集群资源如何分配
如何分配集群资源 (怎么配置Yarn)总资源集群中每台机器的配置 (RAM,CPU,Disk,网卡)预留资源总资源 - 集群中运行服务需要的资源(操作系统OS,DataNode,NodeManger,HBase,Hive,ZK,Impala..)配置集群YARN分配资源 主要参数:yarn.nodemanager.resource.memory-mb 每...
2018-08-04 14:14:54
6202
原创 Hive Metastore部署方式
Metastore 有三种部署方式embedded mode (Metastore 和 db 都运行在 Hive Service进程中)local mode (Metastore 运行在 Hive Service进程中)remote mode (Metastore , Hive Service, db 运行在不同的进程中)Embedded ModeCloudera reco...
2018-08-04 14:13:16
1416
原创 钉钉机器人+Mac定时Launchctl
添加钉钉机器人webhook地址是 post请求的url机器人开发文档python 代码# its_time_to_book_dinner.py# coding:utf-8import requestsdingtalk_url = "https://oapi.dingtalk.com/robot/send?" \ "access_t...
2018-08-04 14:12:25
1074
1
原创 python使用ChartDirector绘图
下载(安装的方式比较特殊)官网下载 安装查看python site-packages位置>>> import sys>>> print sys.path['', '/Library/Python/2.7/site-packages/ply-3.10-py2.7.egg', '/Library/Python/2.7/site-pack...
2018-08-04 14:10:56
1259
原创 HADOOP YARN组件介绍
ResourceManagerResourceManager负责告诉ApplicationMaster哪些Containers可以用 - 组件: Scheduler (对application进行资源分配管理) - 组件: ApplicationManager (接受client提交的job请求, 为application分配一个container作为ApplicationMaster)...
2018-08-04 13:55:05
689
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅