自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Hadoop高频知识点

大数据面试题一、Hadoop搭建的主要流程二、Hadoop架构有哪些组件,分别有什么作用?三、HDFS架构有哪些组件,分别有什么作用?四、HDFS的优缺点五、HDFS为什么不适合存储小文件?六、HDFS的读写流程6.1 写6.2 读七、HDFS命令七、MapReduce中combiner和partitioner的作用八、MapReduce的编码规范九、传输类型为什么要序列化?常用类型的序列化类型是什么?十、自定义序列化类有哪些注意事项十一、MapReduce整体流程十二、Mapreduce的shuffl

2020-12-07 21:17:12 175

原创 Scala函数大全及案例

文章目录一、pandas是什么?二、使用步骤1.引入库2.读入数据总结一、pandas是什么?1、++:合并产生新的数组var a1 = Array.range(1,10)a1.foreach(println)var a2 =Array("a","b","x")println(a1 ++ a2)=>输出:二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot a

2020-12-27 23:39:41 460

原创 Sqoop数据迁移

文章目录一、Sqoop是什么?二、RDBMS => HDFS2.1 从Mysql导入数据到HDFS2.2 通过where语句过滤导入表2.3 使用columns(列)过滤指定列导入表2.4 通过query方式导入数据2.5 使用sqoop增量导入数据(之前导了一部分数据了,了数据发生了变化)2.6 创建Job三、RDBMS => Hive四、RDBMS => Hbase五、HDFS/Hive => RDBMS六、Hive => HDFS七、HDFS => Hive一、S

2020-12-23 11:51:07 363

原创 HBase架构原理

HBase一、HBase原理1.1 什么是NoSQL1.2 NoSQL和关系型数据库对比二、HBase概述2.1 特点三、HBase架构原理3.1 HBase架构三、数据存储结构四、HBase数据存储结构4.1 Rowkey四、数据读写流程一、HBase原理1.1 什么是NoSQLNoSQL:not only SQL,非关系型数据库NoSQL是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的,且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题

2020-12-21 23:15:17 269

原创 Scala(集合)通俗易懂

Scala集合一、Scala集合大分类二、Scala集合-可变/不可变2.1 不可变集合2.2 可变集合三、List常用操作四、List中方法五、Scala 中Set常用操作六、Scala中Map常用操作七、Scala Stream & Vector总结注意:使用dos窗口退出scala模式是:q一、Scala集合大分类此处集合说的是:Collection● Seq:序列,元素按顺序排列 (List)● Set:集合,元素不重复● Map:映射,键值对集合所有的集合都继承自Trav

2020-12-20 14:26:47 513 2

原创 Scala(一)数据类型和使用

ScalaScala简介一、Scala特点1.1 静态类型1.2 强类型1.3 面向对象编程(OOP)二、Scala关键字三、Scala变量和常量四、Scala数据类型4.1 Unit五、Scala字符串插值(拼接)六、函数的定义七、程序控制7.1 条件控制(重点if)7.2 块表达式{}八、for循环8.1 单循环8.2 多重循环九、循环跳转语句十、数据结构十一、数组Scala简介Scala 是一种基于 JVM 的多范式编程语言,这里的范式可以理解为一种编程 风格,比如面向对象编程就是一种范式。常见范

2020-12-18 00:03:00 856

原创 Hive(五)高级查询&&窗口函数

文章目录前言一、order by1.1 应用order by1.2 按照位置编号二、使用步骤1.引入库2.读入数据总结前言扩展:--设置日志set hive.server2.logging.operation.level=NONE ---无日志set hive.server2.logging.operation.level=EXECUTION --有日志一、order byorder by 从英文里理解就是行的排序方式,默认的为升序。 order by 后面必须列出排序的字段名,可

2020-12-15 23:11:58 583

原创 Hive函数

Hive函数一、查看hive的函数库二、查看某个具体的函数三、数学函数四、集合函数五、类型转换函数六、日期函数测试题七、条件函数八、字符串函数一、查看hive的函数库show functions;二、查看某个具体的函数desc function extended 函数名;三、数学函数1、log(double base,double a) 简介:底数为base的a的对数,base可以自定义 返回值类型:doubleselect log(10,100);--返回22、pow(double

2020-12-14 22:28:12 1272

原创 mysql函数大全

文章目录一、数学函数二、字符串函数2.读入数据总结一、数学函数绝对值:abs(v NUMBER)去小数:floor(v DECIMAL)有小数且小数不是0就进1 ceil(v DECIMAL)truncate(v DECIMAL,n,INT):保留精度,和四舍五入没有关系round(v DECIMAL) : 四舍五入round(v DECIMAL,n INT) :保留精度 四舍五入rand():返回0-1的随机数sign(v NUMBER):返回数值的符号,就是判断是正数还

2020-12-14 18:36:07 214

原创 理解group by

以表1test为例:如果说执行以下语句,很显然结果如下:select name from testgroup by name;对于group by name ,可以这么理解,就是把相同name的数据合并到一行,比如说将(1,a,2)与(2,a,4)合并到一行即一个单元格里这里,我们将生成的结果表当成表2,原始表为表1如果执行select *的话,那么返回的结果应该是虚拟表3,可是id和number中有的单元格里面的内容是多个值的,而关系数据库就是基于关系的,单元格中是不允许有多个值的,

2020-12-11 16:30:55 246

原创 Hive中join关联小案例&&map join&&union&&insert装载数据&&import/export

文章目录一、join关联小案例1.1 Linux下建相应目录1.2 导入文件1.3 执行hive脚本1.4 查看数据库以及表是否创建成功1.5 查询内容,做关联二、map join(hive中这个机制自动的)三、union四、装载数据 insert五、将数据插入/导出到文件(insert)六、数据交换(import/export)6.1 使用EXPORT导出数据6.2 使用IMPORT导入数据一、join关联小案例1.1 Linux下建相应目录##数据文件统一存放在这个目录下mkdir hiv

2020-12-11 00:42:13 207

原创 Hive(四)分桶&&视图

Hive目录前言一、分桶1.1、创建分桶的流程二、分桶抽样三、数据块抽样四、视图4.1、创建视图4.2、Hive侧视图概念4.3、操作4.4、 案例前言补充:不在一个数据库,想要查询另外一个数据库的表,通常加个数据库名前缀select * from test.employee;一、分桶分桶实际上和 MapReduce中的分区是一样的。分桶数和reducer数对应。插入数据时按照分桶列通过hashcode取余,把数据分到相应分桶里生成相应文件跟MR中的HashPartitioner的原理一模

2020-12-10 17:13:38 318

原创 Hive(三)建表&&装载数据&&分区

文章目录一、建表1.1 外部表1.2 分隔符1.3 内部表1.4 创建临时表二、建表高阶语句2.1 CTAS WITH(create table as)2.2 CTE (可以理解为临时结果集)2.3 like二、删除表三、修改表四、Load装载数据五、分区(partition)5.1 静态分区单级分区表多级分区表5.2 动态分区六、分桶(Bucket)一、建表1.1 外部表create external table if not exists employee_external(name strin

2020-12-10 00:12:07 438

原创 Java集合类框架(一)

文章目录一、集合框架二、Collection和Collections的区别三、Collection&&List接口四、Set接口五、Map接口一、集合框架对照下图,iterator 是个接口,用来遍历Collection的,遍历数据。Collection可以看做是一个大的分支,是List和Set的父接口,而List和Set又分别是ArrayList、LinkedList和HashSet、TreeSet的父接口。Collection、List和Set都是接口,ArrayList、Lin

2020-12-09 00:17:52 69

原创 Zookeeper(一)环境安装

文章目录一、解压文件二、改名三、查看权限四、配置环境变量一、解压文件#zookeeper环境搭建和安装先用XFTP把文件上传到/opt/download/hadoop里#解压到要放的文件目录[root@single hadoop]# pwd/opt/download/hadoop[root@single hadoop]# tar -zxvf zookeeper-3.4.5-cdh5.14.2.tar.gz -C /opt/software/hadoop二、改名[root@single h

2020-12-08 22:27:15 67

原创 Zookeeper(二)节点类型和选举机制

文章目录1、Zookeeper特点2、数据结构2.1 类型3、选举机制1、Zookeeper特点Zookeeper:一个领导者(Leader),多个跟随者(follower)组成的集群。Leader负责进行投票的发起和决议,更新系统状态。Follower用于接收客户请求并向客户端返回结果,在选举机制中参与 投票。集群中只要有半数以上节点存活,Zookeeper 集群就能正常服务。 全局数据一致:每个 server保存一份相同的数据副本,client 无论连接到哪 个 server,数据都是一致

2020-12-08 22:17:11 425

转载 Map join和reduce join的区别

MapJoin和ReduceJoin区别及优化 1 Map-side Join(Broadcast join) 思想: 小表复制到各个节点上,并加载到内存中;大表分片,与小表完成连接操作。 两份数据中,如果有一份数据比较小,小数据全部加载到内存,按关键字建立索引。大...

2020-12-08 19:03:39 2478

原创 Hive(二)数据类型

文章目录一、Hive数据类型1.1 基本类型1.2 集合数据类型二、Hive数据结构三、创建删除操作3.1 建库3.2 删除库3.3 更改权限四、内部表和外部表4.1 外部表4.2 内部表一、Hive数据类型Hive支持基本和复杂数据类型:● 基本数据类型:数值型、布尔型、字符串类型和时间戳类型;● 复杂数据类型:数组、映射、结构;1.1 基本类型类型实例TIMESTAMP‘2020-11-20 00:00:00’DATE‘2020-11-20’

2020-12-08 17:35:31 364

原创 Hive(一)安装与配置

文章目录前言一、环境搭建主要步骤1.1 主要步骤1.2 解压文件1.3 文件改名以及warehouse的创建1.4 配置hive-site.xml1.5 拷贝mysql驱动1.6 配置环境变量1.7 Hive初始化1.8 启动hive1.9 关闭进程二、安装流程文档前言什么是Hive?Hive是基于Hadoop的数据仓库解决方案Hive的优缺点:①、统一的元数据管理Hive的元数据可以放在mysql上,表结构信息存储在HDFS上。②、入门简单,类SQL③、灵活性、扩展性支持很

2020-12-08 11:10:38 1306

原创 Hadoop-WordCount

目录首先,明确需要3个类WordCountMapper、WordCountReducer、WordCountDriver一、WordCountMapper二、WordCountReducer三、WordCountDriver首先,明确需要3个类WordCountMapper、WordCountReducer、WordCountDriver一、WordCountMapperpackage cn.kgc.wordcount;import org.apache.hadoop.io.IntWritable

2020-12-03 22:56:23 484

原创 实现java对HDFS的操作

目录一、创建文件二、上传文件到HDFS三、下载一个文件到本地三、列举文件信息一、创建文件package cn.kgc.file;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.junit.Test;import java.io.IOException;import java.net.U

2020-12-03 00:26:13 283

原创 线程

java创建线程有三种方式,线程默认是抢占模式

2020-12-01 10:46:31 78

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除