自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 HIVE

1.hive是什么 (1)基于hadoop的数据仓库工具 (2)可以依存于hdfs系统,储存、查询分析其中的结构化数据 (3)支持hsql,将sql任务转换为MR任务的job在hadoop上执行 2.HQL和SQL区别 1.概念上: hive是数仓,mysql是数据库 (1)数据仓库: 倾向于数据管理,管理的数据不用存在本地,用于处理大批量数据     数据库:存储在本地,通常用于存储小批量数据...

2019-06-14 14:47:55 102

原创 mapreduce常见案例

常见案例 1.二次排序 2.共同好友 3.点击流分析模型 案例一1:二次排序 原始数据 目标数据 代码 –Map/Reduce不需要改变,主要是SortComparator通过继承WritableComparator类,重写了compare方法,改变了hadoop默认的排序规则。 步骤1.建立对象存储数据,继承WritableComparable,添加序列化、反序列化、比较器 package...

2019-06-14 10:10:21 4406

原创 常用工具、网站总计

埋点管理工具模板 https://alifd.alibabausercontent.com/materials/@icedesign/usertrack-admin-scaffold/2.0.0/build/index.html#/monitor/version 付费学习 https://www.coursera.org/promo/pi-day-2019 图像训练 https://github....

2019-06-13 17:10:17 140

原创 YARN架构设计

一.设计思想 1.hadoop1.0的旧架构及缺陷 最初的hadoop1模型中并没有yarn,一个 Hadoop 集群可分解为两个抽象实体:MapReduce 计算引擎和分布式文件系统。当一个客户端向一个 Hadoop 集群发出一个请求时,此请求由 JobTracker 管理。JobTracker 与 NameNode 联合将任务分发到离它所处理的数据尽可能近的位置。然后JobTracker 将...

2019-06-13 17:03:06 224

原创 数据仓库层次

1.数仓整体架构 2.数仓分层 在我实习公司中,数仓大概分为三层,为ods、dw、ads。 概念 理解 ODS 业务数据与数据仓库的一个隔离,该层数据结构与原始日志中的结构一致,存放的是原始日志数据。源头数据不能收到污染,必须保持和原始日志数据一致。因为数据可能存在冲突,所以最好加上时间版本用于区别相同数据。 DW DW层是用于查询的数据,通过关联ODS层数据构建各类明细表,...

2019-06-13 14:15:59 2057

原创 设计模式详解

设计模式详解 http://www.runoob.com/design-pattern/design-pattern-intro.html

2019-04-09 14:01:30 125

原创 MR总结

并行度 maptask并行度 切片机制 1)切片定义在InputFormat类中的getSplit()方法 maxsize、blocksize、minsize 2)FileInputFormat中默认的切片机制: 128m切,当一个文件的最后一个切片最大可以切成122m*1.1大小 并发数影响因素 运行节点的硬件 运行任务的类型:CPU密集/IO密集 运行人物的数据量 reduc...

2019-02-20 15:52:23 159

原创 HDFS总结

1. 设计思想 目的: 实现海量数据存储 设计思想: 1)切块存储:避免namenode压力过大 2)备份存储:避免节点压力过大宕机导致文件丢失 2. 架构 主从架构: namenode: 1)存储元数据 2)接收客户端的读写请求 datanode: 1)存储文件 2)处理客户端读写请求 secondarynamenode: 1)备份主节点,在主节点宕机时进行数据恢复保证集群正常运行 ...

2019-02-20 15:07:10 175

转载 设计模式

1、单一职责原则         就一个类而言,应该仅有一个引起它变化的原因(如果你能够想到多于一个的动机去改变一个类,那么这个类就具有多一个的职责,就应该考虑类的职责分离)   2、开放-封闭原则      &amp

2019-02-19 19:42:17 64

原创 多线程

1.线程概念 前提掌握 程序(program)是对数据描述与操作的代码的集合,是应用程序执行的脚本。 进程(process)是程序的一次执行过程,是系统运行程序的基本单位。程序是静态的,进程是动态的。系统运行一个程序即是一个进程从创建、运行到消亡的过程。 多任务(multi task)在一个系统中可以同时运行多个程序,即有多个独立运行的任务,每个任务对应一个进程。 线程 线程(thread...

2019-02-18 19:50:56 82

原创 JVM内存结构及GC原理

内存结构 1.Java堆(Heap) 对于大多数应用来说,Java堆(Java Heap)是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,在虚拟机启动时创建。此内存区域的唯一目的就是存放对象实例,几乎所有的对象实例都在这里分配内存。 Java堆是垃圾收集器管理的主要区域,因此很多时候也被称做“GC堆”。如果从内存回收的角度看,由于现在收集器基本都是采用的分代收...

2019-02-18 15:46:21 173

转载 java反射机制的理解和用途

在imooc上看到关于反射的文章就留心看了看,写的挺好 作者: 陈树义 链接:http://www.imooc.com/article/23418来源:慕课网 反射之中包含了一个「反」字,所以想要解释反射就必须先从「正」开始解释。 一般情况下,我们使用某个类时必定知道它是什么类,是用来做什么的。于是我们直接对这个类进行实例化,之后使用这个类对象进行操作。 Apple apple ...

2019-02-18 15:00:19 94

转载 IO流

流的概念和作用 学习Java IO,不得不提到的就是JavaIO流。 流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象。即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输特性将流抽象为各种类,方便更直观的进行数据操作。 IO流的分类 根据处理数据类型的不同分为:字符流和字节流 根据数据流向不同分为:输入流和输出流 字符流和字节流 字符流的由来: 因为数据编码的不同,而...

2019-02-18 11:34:53 86

原创 集合

List (有序可重复) 继承Collection ArrayList、Vector、LinkedList比较 1)存储结构: ArrayList和Vector底层数组,LinkedList底层链表 2)线程安全性: ArrayList,LinkedList是线程不安全的,效率高。 Vector实现线程安全的,效率低。 3)扩容机制: ArrayList:0.5倍+1扩容 (不可设置,默认...

2019-02-18 11:24:41 79

原创 字符串类

字符串 String 1)string类被final修饰,意味String不可继承,全员方法默认为final,是不可变类,对象一旦生成不可更改,修改对象会创建新的对象 2)内存图 3)常用方法 2. StringBuffer 和 StringBuilder 1)二者皆为可变类 常用方法 append() 末尾添加 deleteChar...

2019-02-18 10:40:32 383

原创 海量数据常用十大解决方案

1.布隆过滤器 2.Hash散列 3.BitMap 4.堆 5.双层通划分 6.数据库索引 7.倒排索引 8.外排序 9.Trie树 10.分布式解决方案 MR/Spark

2018-11-29 21:12:18 679

原创 9个算法常识

1.实现hive不支持的a.id>b.id 案例1:微博需要向用户推送私信,但白名单的用户除外,现在全部用户的uid在表weibouid表的alluid分区,白名单在baimingdan分区,现在用join on实现去除alluid中的白名单uid,两个分区的uid是去重的。 解决方案:笛卡尔积 方法1: select uid from (select uid from weibouid ...

2018-11-29 21:04:59 215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除