- 博客(5)
- 收藏
- 关注
原创 HIVE
1.hive是什么(1)基于hadoop的数据仓库工具(2)可以依存于hdfs系统,储存、查询分析其中的结构化数据(3)支持hsql,将sql任务转换为MR任务的job在hadoop上执行2.HQL和SQL区别1.概念上: hive是数仓,mysql是数据库(1)数据仓库: 倾向于数据管理,管理的数据不用存在本地,用于处理大批量数据 数据库:存储在本地,通常用于存储小批量数据...
2019-06-14 14:47:55 110
原创 mapreduce常见案例
常见案例1.二次排序2.共同好友3.点击流分析模型案例一1:二次排序原始数据目标数据代码–Map/Reduce不需要改变,主要是SortComparator通过继承WritableComparator类,重写了compare方法,改变了hadoop默认的排序规则。步骤1.建立对象存储数据,继承WritableComparable,添加序列化、反序列化、比较器package...
2019-06-14 10:10:21 4446
原创 常用工具、网站总计
埋点管理工具模板https://alifd.alibabausercontent.com/materials/@icedesign/usertrack-admin-scaffold/2.0.0/build/index.html#/monitor/version付费学习https://www.coursera.org/promo/pi-day-2019图像训练https://github....
2019-06-13 17:10:17 167
原创 YARN架构设计
一.设计思想1.hadoop1.0的旧架构及缺陷最初的hadoop1模型中并没有yarn,一个 Hadoop 集群可分解为两个抽象实体:MapReduce 计算引擎和分布式文件系统。当一个客户端向一个 Hadoop 集群发出一个请求时,此请求由 JobTracker 管理。JobTracker 与 NameNode 联合将任务分发到离它所处理的数据尽可能近的位置。然后JobTracker 将...
2019-06-13 17:03:06 249
原创 数据仓库层次
1.数仓整体架构2.数仓分层在我实习公司中,数仓大概分为三层,为ods、dw、ads。概念理解ODS业务数据与数据仓库的一个隔离,该层数据结构与原始日志中的结构一致,存放的是原始日志数据。源头数据不能收到污染,必须保持和原始日志数据一致。因为数据可能存在冲突,所以最好加上时间版本用于区别相同数据。DWDW层是用于查询的数据,通过关联ODS层数据构建各类明细表,...
2019-06-13 14:15:59 2077
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人