自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 HIVE

1.hive是什么(1)基于hadoop的数据仓库工具(2)可以依存于hdfs系统,储存、查询分析其中的结构化数据(3)支持hsql,将sql任务转换为MR任务的job在hadoop上执行2.HQL和SQL区别1.概念上: hive是数仓,mysql是数据库(1)数据仓库: 倾向于数据管理,管理的数据不用存在本地,用于处理大批量数据    数据库:存储在本地,通常用于存储小批量数据...

2019-06-14 14:47:55 110

原创 mapreduce常见案例

常见案例1.二次排序2.共同好友3.点击流分析模型案例一1:二次排序原始数据目标数据代码–Map/Reduce不需要改变,主要是SortComparator通过继承WritableComparator类,重写了compare方法,改变了hadoop默认的排序规则。步骤1.建立对象存储数据,继承WritableComparable,添加序列化、反序列化、比较器package...

2019-06-14 10:10:21 4446

原创 常用工具、网站总计

埋点管理工具模板https://alifd.alibabausercontent.com/materials/@icedesign/usertrack-admin-scaffold/2.0.0/build/index.html#/monitor/version付费学习https://www.coursera.org/promo/pi-day-2019图像训练https://github....

2019-06-13 17:10:17 167

原创 YARN架构设计

一.设计思想1.hadoop1.0的旧架构及缺陷最初的hadoop1模型中并没有yarn,一个 Hadoop 集群可分解为两个抽象实体:MapReduce 计算引擎和分布式文件系统。当一个客户端向一个 Hadoop 集群发出一个请求时,此请求由 JobTracker 管理。JobTracker 与 NameNode 联合将任务分发到离它所处理的数据尽可能近的位置。然后JobTracker 将...

2019-06-13 17:03:06 249

原创 数据仓库层次

1.数仓整体架构2.数仓分层在我实习公司中,数仓大概分为三层,为ods、dw、ads。概念理解ODS业务数据与数据仓库的一个隔离,该层数据结构与原始日志中的结构一致,存放的是原始日志数据。源头数据不能收到污染,必须保持和原始日志数据一致。因为数据可能存在冲突,所以最好加上时间版本用于区别相同数据。DWDW层是用于查询的数据,通过关联ODS层数据构建各类明细表,...

2019-06-13 14:15:59 2077

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除