2019年06月_兰亭已醉

06月 04月 02月

原创 HIVE

1.hive是什么（1）基于hadoop的数据仓库工具（2）可以依存于hdfs系统，储存、查询分析其中的结构化数据（3）支持hsql，将sql任务转换为MR任务的job在hadoop上执行2.HQL和SQL区别1.概念上： hive是数仓，mysql是数据库（1）数据仓库：倾向于数据管理，管理的数据不用存在本地，用于处理大批量数据　　　数据库：存储在本地，通常用于存储小批量数据...

2019-06-14 14:47:55 110

原创 mapreduce常见案例

常见案例1.二次排序2.共同好友3.点击流分析模型案例一1：二次排序原始数据目标数据代码–Map/Reduce不需要改变，主要是SortComparator通过继承WritableComparator类，重写了compare方法，改变了hadoop默认的排序规则。步骤1.建立对象存储数据，继承WritableComparable，添加序列化、反序列化、比较器package...

2019-06-14 10:10:21 4446

原创常用工具、网站总计

埋点管理工具模板https://alifd.alibabausercontent.com/materials/@icedesign/usertrack-admin-scaffold/2.0.0/build/index.html#/monitor/version付费学习https://www.coursera.org/promo/pi-day-2019图像训练https://github....

2019-06-13 17:10:17 167

一.设计思想1.hadoop1.0的旧架构及缺陷最初的hadoop1模型中并没有yarn，一个 Hadoop 集群可分解为两个抽象实体：MapReduce 计算引擎和分布式文件系统。当一个客户端向一个 Hadoop 集群发出一个请求时，此请求由 JobTracker 管理。JobTracker 与 NameNode 联合将任务分发到离它所处理的数据尽可能近的位置。然后JobTracker 将...

2019-06-13 17:03:06 249

原创数据仓库层次

1.数仓整体架构2.数仓分层在我实习公司中，数仓大概分为三层，为ods、dw、ads。概念理解ODS业务数据与数据仓库的一个隔离，该层数据结构与原始日志中的结构一致，存放的是原始日志数据。源头数据不能收到污染，必须保持和原始日志数据一致。因为数据可能存在冲突，所以最好加上时间版本用于区别相同数据。DWDW层是用于查询的数据，通过关联ODS层数据构建各类明细表，...

2019-06-13 14:15:59 2077

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_43853330的博客

原创 HIVE

原创 mapreduce常见案例

原创常用工具、网站总计

原创 YARN架构设计

原创数据仓库层次

空空如也

空空如也

原创 HIVE

原创 mapreduce常见案例

原创 常用工具、网站总计

原创 YARN架构设计

原创 数据仓库层次

空空如也

空空如也

原创常用工具、网站总计

原创数据仓库层次