兰亭已醉-CSDN博客

原创 HIVE

1.hive是什么（1）基于hadoop的数据仓库工具（2）可以依存于hdfs系统，储存、查询分析其中的结构化数据（3）支持hsql，将sql任务转换为MR任务的job在hadoop上执行 2.HQL和SQL区别 1.概念上： hive是数仓，mysql是数据库（1）数据仓库：倾向于数据管理，管理的数据不用存在本地，用于处理大批量数据　　　数据库：存储在本地，通常用于存储小批量数据...

2019-06-14 14:47:55 102

原创 mapreduce常见案例

常见案例 1.二次排序 2.共同好友 3.点击流分析模型案例一1：二次排序原始数据目标数据代码 –Map/Reduce不需要改变，主要是SortComparator通过继承WritableComparator类，重写了compare方法，改变了hadoop默认的排序规则。步骤1.建立对象存储数据，继承WritableComparable，添加序列化、反序列化、比较器 package...

2019-06-14 10:10:21 4406

埋点管理工具模板 https://alifd.alibabausercontent.com/materials/@icedesign/usertrack-admin-scaffold/2.0.0/build/index.html#/monitor/version 付费学习 https://www.coursera.org/promo/pi-day-2019 图像训练 https://github....

2019-06-13 17:10:17 140

原创 YARN架构设计

一.设计思想 1.hadoop1.0的旧架构及缺陷最初的hadoop1模型中并没有yarn，一个 Hadoop 集群可分解为两个抽象实体：MapReduce 计算引擎和分布式文件系统。当一个客户端向一个 Hadoop 集群发出一个请求时，此请求由 JobTracker 管理。JobTracker 与 NameNode 联合将任务分发到离它所处理的数据尽可能近的位置。然后JobTracker 将...

2019-06-13 17:03:06 224

原创数据仓库层次

1.数仓整体架构 2.数仓分层在我实习公司中，数仓大概分为三层，为ods、dw、ads。概念理解 ODS 业务数据与数据仓库的一个隔离，该层数据结构与原始日志中的结构一致，存放的是原始日志数据。源头数据不能收到污染，必须保持和原始日志数据一致。因为数据可能存在冲突，所以最好加上时间版本用于区别相同数据。 DW DW层是用于查询的数据，通过关联ODS层数据构建各类明细表，...

2019-06-13 14:15:59 2057

原创设计模式详解

设计模式详解 http://www.runoob.com/design-pattern/design-pattern-intro.html

2019-04-09 14:01:30 125

原创 MR总结

并行度 maptask并行度切片机制 1）切片定义在InputFormat类中的getSplit()方法 maxsize、blocksize、minsize 2）FileInputFormat中默认的切片机制： 128m切，当一个文件的最后一个切片最大可以切成122m*1.1大小并发数影响因素运行节点的硬件运行任务的类型：CPU密集/IO密集运行人物的数据量 reduc...

2019-02-20 15:52:23 159

原创 HDFS总结

1. 设计思想目的：实现海量数据存储设计思想： 1）切块存储：避免namenode压力过大 2）备份存储：避免节点压力过大宕机导致文件丢失 2. 架构主从架构： namenode： 1）存储元数据 2）接收客户端的读写请求 datanode： 1）存储文件 2）处理客户端读写请求 secondarynamenode： 1）备份主节点，在主节点宕机时进行数据恢复保证集群正常运行 ...

2019-02-20 15:07:10 175

转载设计模式

1、单一职责原则 &nbsp;&nbsp; &nbsp;&nbsp;&nbsp; &nbsp;就一个类而言，应该仅有一个引起它变化的原因（如果你能够想到多于一个的动机去改变一个类，那么这个类就具有多一个的职责，就应该考虑类的职责分离） &nbsp; 2、开放-封闭原则 &nbsp;&nbsp; &nbsp;&nbsp;&amp

2019-02-19 19:42:17 64

原创多线程

1.线程概念前提掌握程序（program）是对数据描述与操作的代码的集合，是应用程序执行的脚本。进程（process）是程序的一次执行过程，是系统运行程序的基本单位。程序是静态的，进程是动态的。系统运行一个程序即是一个进程从创建、运行到消亡的过程。多任务（multi task）在一个系统中可以同时运行多个程序，即有多个独立运行的任务，每个任务对应一个进程。线程线程（thread...

2019-02-18 19:50:56 82

原创 JVM内存结构及GC原理

内存结构 1.Java堆（Heap）对于大多数应用来说，Java堆（Java Heap）是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域，在虚拟机启动时创建。此内存区域的唯一目的就是存放对象实例，几乎所有的对象实例都在这里分配内存。 Java堆是垃圾收集器管理的主要区域，因此很多时候也被称做“GC堆”。如果从内存回收的角度看，由于现在收集器基本都是采用的分代收...

2019-02-18 15:46:21 173

转载 java反射机制的理解和用途

在imooc上看到关于反射的文章就留心看了看，写的挺好作者：陈树义 链接：http://www.imooc.com/article/23418来源：慕课网反射之中包含了一个「反」字，所以想要解释反射就必须先从「正」开始解释。一般情况下，我们使用某个类时必定知道它是什么类，是用来做什么的。于是我们直接对这个类进行实例化，之后使用这个类对象进行操作。 Apple apple ...

2019-02-18 15:00:19 94

转载 IO流

流的概念和作用学习Java IO，不得不提到的就是JavaIO流。流是一组有顺序的，有起点和终点的字节集合，是对数据传输的总称或抽象。即数据在两设备间的传输称为流，流的本质是数据传输，根据数据传输特性将流抽象为各种类，方便更直观的进行数据操作。 IO流的分类根据处理数据类型的不同分为：字符流和字节流根据数据流向不同分为：输入流和输出流字符流和字节流字符流的由来：因为数据编码的不同，而...

2019-02-18 11:34:53 86

原创集合

List （有序可重复）继承Collection ArrayList、Vector、LinkedList比较 1）存储结构： ArrayList和Vector底层数组，LinkedList底层链表 2）线程安全性： ArrayList，LinkedList是线程不安全的，效率高。 Vector实现线程安全的，效率低。 3）扩容机制： ArrayList：0.5倍+1扩容（不可设置，默认...

2019-02-18 11:24:41 79

原创字符串类

字符串 String 1）string类被final修饰，意味String不可继承，全员方法默认为final，是不可变类,对象一旦生成不可更改，修改对象会创建新的对象 2）内存图 3）常用方法 2. StringBuffer 和 StringBuilder 1）二者皆为可变类常用方法 append() 末尾添加 deleteChar...

2019-02-18 10:40:32 383

原创海量数据常用十大解决方案

1.布隆过滤器 2.Hash散列 3.BitMap 4.堆 5.双层通划分 6.数据库索引 7.倒排索引 8.外排序 9.Trie树 10.分布式解决方案 MR/Spark

2018-11-29 21:12:18 679

原创 9个算法常识

1.实现hive不支持的a.id&gt;b.id 案例1：微博需要向用户推送私信，但白名单的用户除外，现在全部用户的uid在表weibouid表的alluid分区，白名单在baimingdan分区，现在用join on实现去除alluid中的白名单uid,两个分区的uid是去重的。解决方案：笛卡尔积方法1： select uid from (select uid from weibouid ...

2018-11-29 21:04:59 215

weixin_43853330的博客