自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

原创 HIVE 字段级血缘分析 写入Neo4j

Step 1. 利用HIVE Hook LineageLogger 获取字段之间的依赖关系注意:LineageLogger Hook 是Hive2.0版本之后存在的,如果HIVE版本不够需要升级HIVE版本。PS.CDH有的HIVE版本添加此功能下面以hive 2.5.3版本为例添加参数vim /usr/local/hive/conf/hive-site.xml<property&...

2019-06-28 19:11:06 12248 9

原创 HIVE SQL 计算留存率 思路

问题计算每日访问用户 在之后日期的 留存数基础表 每日访问用户IDcreate external table if not exists user_visit_date ( user_id bigint comment '用户ID') comment '每日访问用户'partitioned by (p_day date comment '分区日期')stored as parque...

2019-06-26 19:26:55 6208 2

原创 HIVE分区表添加字段cascade 执行时间过长出现bug

执行hive分区表添加字段命令alter table db_name.staging_user_log_minutesadd columns( `ext_main_business_line` string COMMENT '主业务线') cascade;因为历史分区量太大,所以执行命令花了很长的时间,正好又有新的调度任务写入新分区,导致有的分区没有添加上新的字段找到问题路径(通过...

2019-05-20 16:44:15 3983

原创 Sqoop 同步Parquet partition Hive表

import (mysql to hive)不能同步orc或parquet,能同步textfile类型way 1 (同步到hive表)sqoop import \ --connect jdbc:mysql://localhost:3306/mysql_db \ --username mysql_user \ --password mysql_pass \ --table m...

2019-05-09 21:58:57 2182 5

原创 hive collect_set 结果顺序不一致

HQL 例子select distinct channelfrom( select user_id, collect_set(channel) as channel from test_table group by user_id) t1;结果出现了[“APP”,“QQ浏览器”][“QQ浏览器”,“APP”]查看代码得知 collect_se...

2018-12-24 11:41:07 9745 10

原创 同一个sql 在Hive和spark-sql 跑出结果不一样记录

表Schemahive&amp;gt; desc gdm.dim_category; name string 分类名称 org_code string ...

2018-10-23 13:10:41 4467

原创 Hive orc表 删除字段

说明Unfortunately, you can’t! The only way you can delete column from existing table is by using REPLACE COLUMNS keyword. But this can be done only for tables with a native SerDe (DynamicSerDe, Me...

2018-08-07 22:43:54 3930

原创 搭建CDH 阿里云 (Step 3: 搭建Hive)

安装官方文档yum install hive hive-metastore hive-server2 -yPS. 找一台压力小的机器 安装hive修改Hive配置文件vim /etc/hive/conf/hive-site.xml&amp;lt;!-- HiveMetastore --!&amp;gt;&amp;lt;property&amp;gt; &amp;lt;name&amp;gt;java...

2018-08-06 09:38:41 742

原创 Hive On Spark搭建(cdh)

hive 和 spark版本之前有强对应关系apache hive 和 spark 对应关系表 master 2.3.0 3.0.x 2.3.0 2.3.x 2.0.0 2.2.x 1.6.0 2.1.x 1.6.0 2.0.x 1.5.0 1.2.x 1.3.1 1.1.x 1.2.0...

2018-08-06 09:37:44 2747

原创 搭建CDH 阿里云 (Step 2: 启动yarn)

Yarn HA 文档Yarn HA 文档配置 Yarn 分配集群资源文档地址yarn-site.xml 配置&amp;lt;!-- Base Configs --&amp;gt; &amp;lt;property&amp;gt; &amp;lt;description&amp;gt;Classpath for typical applications.&amp;lt;/description&amp;gt

2018-08-04 14:18:18 749

原创 搭建CDH 阿里云 (Step 1: 启动hdfs)

准备动作在阿里云申请三台机器(Centos)安装Oracle JDK在阿里云申请三台机器(Centos)PS. 内存要大于4g,因为namenode启动的时候内存需要在每一台机器上配置域名vim&amp;nbsp;/etc/hosts172.24.218.96 worker1172.24.218.97 worker2172.24.218.98 worker3...

2018-08-04 14:17:05 2057

原创 DAGScheduler之Job的提交划分Stage

整体流程图源码分析 spark 2.3getOrCreateParentStages 创建所有祖先Stage/** * Get or create the list of parent stages for a given RDD. The new Stages will be created with * the provided firstJobId....

2018-08-04 14:16:23 809

原创 MapReduce Shuffle 过程

Map从磁盘上读取数据执行map函数Partition分区(放进内存)Sort排序(内存排序)Combine结果(内存预聚合)将结果写到本地的磁盘上Merge(对磁盘上的文件合并)ReduceCopy (fetch 拉取数据直接放进内存)Merge (内存-&gt;磁盘)Merge (磁盘-&gt;磁盘)执行reduce函数word cou...

2018-08-04 14:15:32 572

原创 YARN集群资源如何分配

如何分配集群资源 (怎么配置Yarn)总资源集群中每台机器的配置 (RAM,CPU,Disk,网卡)预留资源总资源 - 集群中运行服务需要的资源(操作系统OS,DataNode,NodeManger,HBase,Hive,ZK,Impala..)配置集群YARN分配资源 主要参数:yarn.nodemanager.resource.memory-mb 每...

2018-08-04 14:14:54 6202

原创 Hive元数据 表结构

Hive元数据简单整理

2018-08-04 14:13:43 698 3

原创 Hive Metastore部署方式

Metastore 有三种部署方式embedded mode (Metastore 和 db 都运行在 Hive Service进程中)local mode (Metastore 运行在 Hive Service进程中)remote mode (Metastore , Hive Service, db 运行在不同的进程中)Embedded ModeCloudera reco...

2018-08-04 14:13:16 1416

原创 钉钉机器人+Mac定时Launchctl

添加钉钉机器人webhook地址是 post请求的url机器人开发文档python 代码# its_time_to_book_dinner.py# coding:utf-8import requestsdingtalk_url = "https://oapi.dingtalk.com/robot/send?" \ "access_t...

2018-08-04 14:12:25 1074 1

原创 python使用ChartDirector绘图

下载(安装的方式比较特殊)官网下载 安装查看python site-packages位置&gt;&gt;&gt; import sys&gt;&gt;&gt; print sys.path['', '/Library/Python/2.7/site-packages/ply-3.10-py2.7.egg', '/Library/Python/2.7/site-pack...

2018-08-04 14:10:56 1259

原创 HADOOP YARN组件介绍

ResourceManagerResourceManager负责告诉ApplicationMaster哪些Containers可以用 - 组件: Scheduler (对application进行资源分配管理) - 组件: ApplicationManager (接受client提交的job请求, 为application分配一个container作为ApplicationMaster)...

2018-08-04 13:55:05 689

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除