自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 Map-Reduce复习

Mapper端输入: 例:Mapper<LongWritable, Text, Text, IntWritable>,输入的键、值类型在作业中的 FileInputFormat 中定义,默认是 TextInputFormat。 TextInputFormat 的 键是LongWritable,表示截至目前从文件中读出的字节数。输入值是Text对象,表示从文本中读入的一行记录。当然了,如果使用不同的输入格式,很可能需要改变这些键、值的数据类型....

2020-09-28 17:37:30 140

原创 程序是怎样跑起来的一书摘要

程序是什么? 指示计算机每一步动作的一套指令,动作的先后顺序程序是由什么组成的 ? 指令和数据什么是机器语言(或者叫本地代码) ? CPU 可以(并且只能)识别、使用的语言.正在运行的程序存储在什么位置 ?内存,硬盘和磁盘上的程序被复制到内存后执行计算机的构成元件中,负责程序的解释和运行的是哪个? CPU,由数百万乃至上亿个晶体管构成。内部分为 控制器、运算器、寄存器、时钟。各部件...

2020-04-20 22:40:38 213

原创 计算机是怎样跑起来的一书摘要

问题:计算机由硬件、软件组成,硬件跟软件的区别?存储 字符串"中国"需要几个字节?什么是编码?1.硬件就是看得着/摸得着的设备,比如键盘、鼠标等。软件是计算机执行的程序,即指令和数据,软件是看不着的。2.GBK编码下,“中国” 占4字节,utf8编码,6字节。编码不同,汉字占字节不同3.计算机内部把所有的信息当成数字处理。标识字符的数字是 字符编码,表示颜色的数字是颜色编码。计算机的三个基...

2020-04-19 23:38:23 197 1

原创 hbase基础命令

DDLlistlist_namespacelist_namespace_tables ‘ns01’创建命名空间create_namespace ‘ns01’建表create ‘ns01:table01’, {NAME => ‘family01’, VERSIONS => 5},{NAME => ‘family02’, VERSIONS => 2}查看表属性...

2020-03-28 08:38:03 131

原创 mongodb简单介绍

概念:C++编写,基于分布式的,属于NoSQL的一种,最像关系型数据库的NoSQL,MongoDB 将数据存储为一个文档,数据结构由键值(key-value)对组成,MongoDB文档类似于JSON对象,字段值可以包含其他文档、数组及文档数组。语法格式: Bson: Binary JSON连接mongodb命令mongo如果修改了端口,连接时需要指定端口mongo --port 270...

2020-03-28 08:31:59 86

原创 scala一些基础知识点

1:class object trait区别class只会被编译,不会被执行object实现static的功能scala通过trait实现多继承的功能。另外trait可以定义自己的属性并且实现方法体,scala中通过with实现多继承class Test extends TraitA with TraitB{}**函数式编程:**一切皆对象,函数是一等公民,可以独立存在2:尾调用:一个...

2020-03-28 08:27:58 111

原创 IntelliJ IDEA常用快捷键整合,很强大

alt + insert 自动生成 getter setterctrl + g 光标移动到指定行,指定列ctrl + alt + L formatend 光标移动到行尾home 光标移动到行首ctrl + F 查找ctrl + r 替代shift + delete / ctrl + y 删除行ctrl + d 复制行ctrl + { / } 光标移动到block 首/尾c...

2020-03-27 09:08:15 126

原创 几种集合的优缺点简单比较

dictionary/map、 list 查找原理:假设字典包含了1万个汉字,我们要查某一个字,一个办法是把字典从第一页往后翻,直到找到我们想要的字为止,这种方法就是在list中查找元素的方法,list越大,查找越慢。第二种方法是先在字典的索引表里(比如部首表)查这个字对应的页码,然后直接翻到该页,找到这个字。无论找哪个字,这种查找速度都非常快,不会随着字典大小的增加而变慢。dictiona...

2020-03-27 08:49:46 1354

原创 CAP的理解

链接链接

2020-03-26 22:58:27 131

原创 sqopp详解

转载的Sqoop 使用详解(内含对官方文档的解析)

2020-03-24 23:35:26 637

原创 关于CAP理论的理解

网上有几篇文章写得不错感觉CAP理论的理解分布式系统中的CAP理论,面试必问,你理解了嘛?CAP原则(CAP定理)、BASE理论

2020-03-23 13:09:29 148

原创 关于数据库范式、数仓的理解

有两篇文章感觉写得不错关系型数据库设计:三大范式的通俗理解数据仓库、数据库的对比介绍与实时数仓案例

2020-03-23 12:19:59 80

原创 OLTP---OLAP

OLTP和OLAP的区别联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。OLTP的特点一般有:1.实时性要求高。大约十年前,银行异地汇款,要隔天才能到账,而现在是分分钟到账的节奏,说明现在银行的实时处理能力大大增强。2.数据量不是很大,生产库上的数据量...

2020-03-23 09:34:41 225

原创 关于数仓建模

链接

2020-03-21 00:05:51 140

原创 关于mapreduce分片的一些问题

split大小设置:关于分片大小的设计,分片大小不能大于block大小,不然从多个block拉取数 据,增加磁盘IO,降低并行度,违反了mapreduce的设计原则。分片大小计算公式:splitSize = Max(splitMinSize, Min(splitMaxSize, blockSize))splitMinSize默认为1,并且强制为1,除非修改hadoop源代码splitMa...

2020-03-20 23:42:49 183

原创 关于磁盘组成原理

有两篇文章总结得比较详细添加链接描述添加链接描述

2020-03-20 21:36:56 114

原创 一些java理解

基本数据类型跟引用数据类型区别:前者直接存放数据的值,后者存放数据所在的地址。java 八进制的字面量 以 0 开头,十六进制的字面量 以 0x 开头字符串:1.当JVM遇得双引号操作符时,JVM在字符串对象池中搜索该字符串对象是否已创建,如果有,返回其引用,如果没有,先创建再返回引用。2.如果使用new关键字,jvm会先执行1的步骤,然后再额外创建一个String对象。如下代码 ...

2020-03-18 09:58:16 94

原创 hive语句

在hive终端执行shell语句,行首加!!ls /opt;建库本质:在数仓目录下创建一个目录(库名.db)create database [if not exists] dbName [comment 'this is dbName'];建表create [external] table [if not exists] tableName (col_name data_type...

2020-03-18 09:57:10 124

原创 flume 文件 两种配置

flume采集数据,kafka同时作为channel,sink,保证了数据的高容错配置文件a1.sources=r1a1.channels=c1 c2# configure source# TAILDIR 可见监控文件组的变化a1.sources.r1.type = TAILDIRa1.sources.r1.positionFile = /home/hadoop/zlwhouse/...

2020-03-16 18:10:45 191

原创 hive一些特殊设置

set hive.cli.print.header=true;set hive.resultset.use.unique.column.names=false;

2020-03-16 12:41:07 112

原创 HDFS---HA

HA概述1)所谓HA(high available),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无...

2020-03-14 12:24:36 271

原创 HDFS工作机制

写1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用d...

2020-03-14 12:06:20 84

原创 HDFS特点以及常用命令

HDFS优点:高容错海量数据存储流式数据访问:一次写入,多次读取,不能修改,只能追加。能保证数据的一致性可构建在廉价的机器上缺点不适合低延时处理不能高效处理很多小文件如果存储大量小文件,会占用NameNode大量的内存来存储文件、目录和快信息,不可取,因为NameNode内存有限小文件的寻道时间会 超过读取时间,违反HDFS的设计原则一个文件...

2020-03-14 11:12:09 218

原创 关于引用计数法的循环引用问题

现在JVM大多不采用引用计数法 进行GC,很大程度上是因为引用计数法不能解决循环引用的问题。如下代码public class TestClass { private Object ref; public static void main(String[] args) { TestClass o1 = new TestClass(); // 1 ...

2020-03-11 18:02:34 2432 3

原创 flume版本演变

flume初始发行版本为 Flume OG(Original Generation),属于cloudera。缺点:代码工程臃肿、核心组件设计不合理、核心配置不标准,日志传输不稳定。2011年,cloudera 完成了 Flume-728,对 Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG(next generation);改动的另一原因...

2020-03-11 09:10:07 1234

原创 Nginx策略

Nginx原理:Nginx在集群中起到一个代理服务器的作用,为了避免单独的服务器压力过大,将客户的请求分发给不同的服务器主要来解决服务器负载均衡的问题负载均衡策略:1.轮询:默认策略。每个请求按时间顺序逐一分配到不同的服务器2.权重:在轮询基础上指定轮询的几率。weight参数用于指定轮询几率,默认值为1。(1)weight的值与访问比率成正比。权重越高,分配到的请求越多。(2)此策...

2020-03-09 19:12:31 533

原创 优化

关于索引:索引可以提高查询速度,但并不是使用索引时,索引都会起作用。下列情况下,索引不会起作用like:使用like关键字的查询语句中,如果匹配字符串的第一个字符为% ,索引不会起作用。组合查询:只有查询条件中使用了第一个索引字段,索引才会起作用or关键字:查询语句中条件中只有or关键字,且or前后两个条件中的列都是索引时,索引才会起作用。优化子查询:使用子查询可以进行select语句嵌...

2020-03-06 09:37:36 87

原创 存储过程和函数

创建存储过程:使用 CREATE PROCEDURE语句。格式:CREATE PROCEDURE p_name(p_parameter[]) [characteristics...] routin_body说明:CREATE PROCEDURE是用来创建存储函数的关键字;p_name 存储过程的名字。p_parameter是参数列表,形式如下[IN | OUT | INOUT] p_...

2020-03-05 18:47:50 82

原创 mysql数据备份

备份数据库终端输入:备份数据库mysqldump -u user -h host -p db_name > dest_file_pathmysqldump 是mysql提供的一个数据库备份工具。执行该命令将数据库备份成一个文本文件。user 用户名;host 登陆用户的主机名;db_name 要备份的库名称; dest_file_path 备份文件路径 > 告诉mysql...

2020-03-05 11:48:26 84

原创 复习(六)---mysql自带函数

数学函数1. 绝对值函数ABS()和PI()函数 : SELECT ABS(2), ABS(-13), PI();2. 平方根函数SQRT()跟取模函数MOD(x,y) x为被除数,y为除数: SELECT SQRT(9), MOD(2,9); 3. CEIL(X) 或 CEILING(X) 返回不小于x的最小整数值,返回值是BIGINT。FLOOR(X) ,不大于x的最大整数值4. RA...

2020-03-03 11:49:35 76

原创 复习(五)--DML和索引

INSERT将查询结果插入表中INSERT INTO table_name1 (column_list) SELECT (column_list) FROM table_name2 WHERE (condition);UPDATEDELETE索引:一个单独的、存储在硬盘上的数据库结构,包含着对表中所有记录的引用指针。使用索引用于快速找出在某一列或多个列中有特定值的记录,使用索引可以有...

2020-03-02 21:44:38 245

原创 复习(四)--- 连接查询

内连接:INNER JOIN 关键字连接表ON 过滤条件只显示匹配条件的记录SELECT t1.s_id, s_name, f_name, f_priceFROM t1 INNER JOIN t2ON t1.s_id = t2.s_id;外连接:LEFT JOIN:返回左表的所有记录,包括不匹配过滤条件的记录。右表只返回匹配条件的记录。如果左表的某行在右表中没有匹配行,结果中,...

2020-03-02 16:34:21 433

原创 复习(三)--关键字

% :匹配任意数目的字符,包括 0 个字符_:匹配任意一个字符去重:DISTINCTSELECT DISTINCT s_id FROM fruits;order by排序:多列排序SELECT f_name, f_price FROM fruits ORDER BY f_name, f_price;注意:第一列有相同值,才会对第二列进行排序。group by:按照指定的字段...

2020-03-01 21:59:02 77

原创 mysql复习(二)--数据类型

mysql支持的数据类型数值数据类型:整型: TINYINT SMALLINT MEDIUMINT INT BIGINT浮点小数型: FLOAT DOUBLE定点小数类型: DECIMAL日期时间类型:YEAR TIME DATE DATETIME TIMESTAMP字符串类型:CHAR VARCHAR BINARY VARBINARY BLOB TEXT ENUM SET整数类型...

2020-03-01 15:17:09 156

原创 mysql复习(一)

数据库系统组成:数据库Database:存储数据的地方数据库管理系统(Database Manager System):用于管理数据库的软件数据库应用程序(Database Application):为了提高数据库管理系统的处理能力所使用的管理数据库的软件补充数据库系统如下图SQL(Structured Query Language)语言DDL:DROP、CREATE、ALTER...

2020-02-29 22:13:53 147

原创 Navicat常用快捷键

ctrl Q : 打开查询窗口ctrl N:在查询窗口,打开一个新的查询窗口ctrl / : 注释语句ctrl shift / : 取消注释ctrl R: 运行窗口的语句ctrl shift R:运行选中的语句Home 键 到行首,shift + ↓ : 选中该行语句F6:打开一个mysql 命令行窗口ctrl L : 删除一行ctrl W:关闭当前窗口ctrl shift...

2020-02-29 15:09:45 266

原创 JAVA基础复习(二)

基础类库- Scanner:使用Scanner类可以方便地获取用户的键盘输入。Scanner是一个基于正则表达式的文本扫描器,它可以从文件、输入流、字符串中解析出基本类型值和字符串。Scanner提供了多个构造器,不同的构造器可以接收文件、输入流、字符串作为输入源,用于从文件、输入流、字符串中解析数据- 系统相关:java程序在不同操作系统上运行,可能需要获得平台相关的属性,或者调用平台命令来...

2020-02-29 10:01:52 86

原创 JAVA基础复习(一)

Java特点: 高级语言,面向对象,编译、解释型语言。运行机制:源文件(.java文件)经过编译生成字节码文件(.class文件),JVM对字节码文件解释执行,运行在对应的平台上。(不同的平台对应不同的JVM,实现一次编写,到处运行)八大基本数据类型byte:8位char:16位short:16位int:32位floart:32位long:64位double:64位boo...

2020-02-05 09:53:35 82

原创 JAVA内存模型

转载什么是JAVA内存模型

2020-01-28 09:03:27 63

原创 HBase跟Hadoop版本兼容

注意:HBase 2.0+ 最低需要Java 8和Hadoop 2.6,需要ZooKeeper 3.4.x√:支持❌:不支持❗:未测试

2020-01-24 22:06:58 1051

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除