潘书鹏的BigData-CSDN博客

原创 Spark MLlib

基本概念1. 项不项集这是一个集合的概念，在一篮子商品中的一件消费品即一项（item），则若干项的集合为项集，如{啤酒，尿布}构成一个二元项集。2. 关联规则关联规则用亍表示数据内隐含的关联性，例如表示购买了尿布的消费者往往也会购买啤酒。关联性强度如何，由3 个概念，即支持度、置信度、提升度来控制和评价。3. 支持度（support）支持度是指在所有项集中{X, Y}出现的可能性，即项集中同时含有X 和Y 的概率：设定最小阈值为5%，由亍{尿布，啤酒}的支持度为800/10000=8%

2020-10-24 11:51:44 380

原创 Kafka 高效读写数据的原因

文章目录1. 顺序写磁盘2. 分段日志 + 索引文件3. 零拷贝4. Page Cache5. 批量发送6. 数据压缩1. 顺序写磁盘Kafka的producer生产数据，要写入到log文件中，写的过程是一直追加到文件末端，为顺序写。官网有数据表明，同样的磁盘，顺序写能到600M/s，而随机写只有100K/s。这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。2. 分段日志 + 索引文件分段日志是通过数据的偏移量进行存储，索引文件是能快速定位所要查询数据的位置1、K

2020-06-09 09:36:52 2223 1

原创 Spark 的两种 Shuffle

文章目录1. HashShuffle1. 优化前2. 优化后2. SortShuffle1. 普通运行机制2. bypass运行机制1. HashShuffle1. 优化前1. shuffle write阶段，主要就是在一个stage结束计算之后，为了下一个stage可以执行shuffle类的算子（比如reduceByKey），而将每个task处理的数据按key进行“划分”。所谓“划分”，就是对相同的key执行hash算法，从而将相同key都写入同一个磁盘文件中，而每一个磁盘文件都只属于下游st

2020-05-31 14:23:30 1041 1

原创 Redis高频面试题

1. Redis 默认数据库数量默认16个数据库，类似数组下标从0开始，初始默认使用0号库统一密码管理，所有库都是同样密码，要么都OK要么一个也连接不上。2. Redis是单线程的，为什么那么快1)完全基于内存，绝大部分请求是纯粹的内存操作，非常快速。2)数据结构简单，对数据操作也简单，Redis中的数据结构是专门进行设计的3)采用单线程，避免了不必要的上下文切换和竞争条件，也不存在多进程或者多线程导致的切换而消耗 CPU，不用去考虑各种锁的问题，不存在加锁释放锁操作，没有因为可能出现

2020-05-31 13:53:13 1718 2

原创 Kafka的JavaAPI操作

文章目录1. 创建maven工程并添加jar包2. 生产者代码1. 使用生产者，生产数据2. kafka当中的数据分区3. 消费者代码1. 自动提交offset2. 手动提交offset3. 消费完每个分区之后手动提交offset4. 指定分区数据进行消费6. 高阶API（High Level API）7. 低级API(Low Level API)8. kafka Streams API开发1....

2020-04-18 09:36:56 4833 3

原创 Kafka集群操作

文章目录1. 创建topic2. 查看主题命令3. 生产者生产数据4. 消费者消费数据5. 运行describe topics命令6. 增加topic分区数7. 增加配置8. 删除配置9. 删除topic1. 创建topic创建一个名字为test的主题，有三个分区，有两个副本node01执行以下命令来创建topic[root@node01 ~]# cd /export/servers/...

2020-04-18 09:21:01 4956

原创 Kafka 一键启动脚本教程

1. 编写脚本#! /bin/bashcase $1 in"start"){ for i in node01 node02 node03 do echo " --------启动 $i Kafka-------" # 用于KafkaManager监控 ssh $i...

2020-04-18 09:11:34 6652 3

原创 kafka 集群环境搭建

文章目录1. 初始化环境准备2. 下载安装包并上传解压3. node01服务器修改kafka配置文件4. 安装包分发到其他服务器上面去5. node02与node03服务器修改配置文件6. kafka集群启动与停止1. 初始化环境准备安装jdk，安装zookeeper并保证zk服务正常启动2. 下载安装包并上传解压node01执行以下命令，下载并解压[root@node01 ~]# cd...

2020-04-18 09:02:34 4516 1

原创 Kafka 基本介绍

文章目录1、什么是kafka2、kafka的使用场景3、 kafka优缺点4、Kafka架构（流程）5、Kafka架构（API）6、Topic内部有哪些组成？7、分区和消费组内的消费者之间的关系有哪些情况？8、分区数、消费者与读取效率之间的关系9、副本数与broker之间的关系10、什么是主/从副本11、主/从复本的作用是什么12、 ISR是什么？13、成产者生产数据到kafka集群，数据...

2020-04-18 08:47:08 4247

原创 Redis 环境安装

文章目录1. 下载redis安装包2. 解压redis压缩包到指定目录3. 安装C程序运行环境4. 安装较新版本的tcl5. 进行编译redis6. 修改redis配置文件7. 启动redis8. 连接redis客户端1. 下载redis安装包node01(主节点)服务器执行以下命令下载redis安装包[root@node01 ~]# cd /export/soft/[root@node0...

2020-04-17 11:55:47 4258 3

原创 Redis -- JavaAPI基本操作

1. 导入 pom 文件<dependencies> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>...

2020-04-17 11:47:04 3606 1

原创 Redis 的基本操作

1. redis当中对字符串string的操作2. redis当中对hash列表的操作Redis hash 是一个string类型的field和value的映射表，hash特别适合用于存储对象。Redis 中每个 hash 可以存储 232 - 1 键值对（40多亿）3. redis当中对list列表的操作Redis列表是简单的字符串列表，按照插入顺序排序。你可以添加一个元素到列表...

2020-04-17 11:42:26 3874

原创 Redis 简介

文章目录1. 什么是redis2. Redis持久化数据的方式有哪些3. 解决IT行业数据读取瓶颈的终极方案4. Redis如何实现读写分离？5. 介绍哨兵机制1. 什么是redisRedis是一个基于内存的使用C语言编写的key-value开源的NOSQL存储系统。不支持SQL语句。2. Redis持久化数据的方式有哪些 1、RDB 触发式的序列化 Save 5 2 (5秒...

2020-04-17 11:36:27 4352 2

原创 Yarn 简介

1. 什么是Yarn ？Yarn -- 通用资源管理系统和调度平台2. Yarn 特点1、支持多计算框架2、资源利用率高，运行成本低，数据共享。Yarn资源管理只包括内存与CPU,Yarn回去汇总集群内所有节点上的CPU总和数，和内存总数量。ss（不包括磁盘和网络）Yarn的意义：降低了企业硬件的成本（多个集群变成一个集群），减少了资源的了浪费，运营成本低。3. Yarn基本组...

2020-04-17 11:31:15 5000

原创一键启动Zookeeper教程

1. 编写脚本#! /bin/bashcase $1 in"start"){ for i in node01 node02 node03 do ssh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start" done};;"stop"){ for i in node01 node02 node03 do ...

2020-03-17 17:26:31 19960

原创大数据流程练习题

本题是一个综合练习题目总共包括以下部分：1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例，请先阅读数据说明，再做相应题目。数据说明：表1-1 视频表字段备注详细描述表1-2 用户表字段备注字段类型原始数据：qR8WRLrO2aQ:mienge:406:People &...

2020-01-07 08:20:32 21124

原创 HBase 的 java 代码开发 -- pom文件

<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository>&lt...

2019-12-17 17:49:31 23921 1

原创 HBase 面试题

文章目录HBase的基本介绍HBASE的适用场景Hbase和Hadoop之间的关系Hbase与RDBMS的关系Hbase特征简要说明hbase的基础架构HBase的底层原理HBase的表数据模型Row Key列族Column Family列 Column时间戳Cell存储数据的最小单位VersionNumhbase物理存储region的切分Memstore与storefileHLog(WAL lo...

2019-12-17 17:33:09 24654 1

原创 ERROR:org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

异常信息 :解决方法 : 集群时间不同设置一下时间在完成上部操作之后，重启hbase服务时又会报错：ERROR: Can't get master address from ZooKeeper; znode data == nullHere is some help for this command:List all tables in hbase. Optional regula...

2019-12-12 09:46:33 25743 3

原创 HBase 从节点启动不了HRegionServer

异常信息:导致原因 :从节点与主节点的时间差了31秒多, 如果时间相差30秒以上则会报此异常解决方案:三台机器时间同步 ntpdate ntp4.aliyun.com

2019-12-12 09:37:10 25826 1

原创 HBase 的集群环境搭建

注意事项：HBase强依赖zookeeper和hadoop，安装HBase之前一定要保证zookeeper和hadoop启动成功，且服务正常运行第一步: 下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下: 下载地址HBase对应的版本下载地址如下: 下载地址第二步: 压缩包上传并解压将我们的压缩包上传到node01服务器的/export/softwares路径下并解压...

2019-12-11 20:41:13 24899 1

原创 Impala 介绍

文章目录1. Impala基本介绍2. Impala与Hive关系3. Impala与Hive异同3.1 Impala使用的优化技术3.2 执行计划3.3 数据流3.4 内存使用3.5 调度3.6 容错3.7 适用面4. Impala架构4.1 Impalad4.2 Impala State Store4.3 CLI4.4 Catalogd（目录）5. Impala查询处理过程1. Impala...

2019-12-10 20:33:38 26221

原创 Impala-shell命令参数

文章目录1. impala-shell外部命令2. impala-shell内部命令1. impala-shell外部命令所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impala-shell 时设置，用于修改命令执行环境。impala-shell –h可以帮助我们查看帮助手...

2019-12-10 20:06:19 25205

原创 Impala 安装部署

1. 安装前提集群前提安装好hadoop，hive。　　 hive安装包scp在所有需要安装impala的节点上，因为impala需要引用hive的依赖包。　　 hadoop框架需要支持C程序访问接口，查看下图，如果有该路径下有这么文件，就证明支持C接口。2. 下载安装包，依赖包由于impala没有提供tar包进行安装，只提供了rpm包。因此在安装impala的时候，需要使用rp...

2019-12-10 17:51:15 25663 1

原创 ZooKeeper Java API

org.apache.zookeeper.Zookeeper　　 Zookeeper是在Java中客户端主类，负责建立与zookeeper集群的会话，并提供方法进行操作。org.apache.zookeeper.Watcher　　 Watcher接口表示一个标准的事件处理器，其定义了事件通知相关的逻辑，包含KeeperState和EventType两个枚举类，分别代表了通知状态和事件类...

2019-12-10 09:07:02 24638 1

原创 ZooKeeper 简介

文章目录1. Zookeeper基本知识1.1 ZooKeeper集群搭建1.2 ZooKeeper概述1.3 ZooKeeper特性1.4 ZooKeeper集群角色2. ZooKeeper shell2.1 客户端连接2.2 shell基本操作3. ZooKeeper数据模型3.1 数据结构图3.2 节点类型3.3 节点属性4. ZooKeeper Watcher（监听机制）4.1 Watch...

2019-12-10 09:05:11 25204

原创 ZooKeeper集群搭建

安装zookeeper的注意事项：安装前需要安装好jdk检测集群时间是否同步检测防火墙是否关闭检测主机 ip映射有没有配置下载地址：CDH版本：下载地址apache版本：下载地址1. 上传解压上传路径:[root@node01 /]# cd /export/soft解压:[root@node01 soft]# tar -zxvf zookeeper-3.4.5-c...

2019-12-09 21:12:09 24852 6

原创 java.nio.charset.MalformedInputException: Input length = 1

异常信息：2019-12-05 15:43:05,589 (pool-5-thread-1) [ERROR - org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirectorySource.java:280)] FATAL: Spool Directory source r1: { spo...

2019-12-05 16:24:49 26372 1

原创 Sqoop安装步骤

前提：安装 sqoop 的前提是已经具备 java 和 hadoop 的环境建议使用版本: 1.4.6 (最新最稳定版)1. 上传安装包并解压2. 修改配置文件$SQOOP_HOME 为你解压到路径[root@node01 conf]# cd $SQOOP_HOME/conf给配置文件重命名[root@node01 conf]# mv sqoop-env-template.sh ...

2019-12-04 21:30:43 26452

转载 Hive简介

文章目录Hive基本概念Hive的意义是什么Hive可以对数据进行存储与计算Hive的特性Hive缺点Hive的内部组成架构数据格式：Hive中没有定义专门的数据格式数据格式部分自定义：hive支持的数据格式Hive元数据Hive安装部署Hive的访问方式Hive传选项数据库的基本操作 hive的数据库、表、分区在HDFS的表现形式是文件夹数据库的默认路径：/user/hive/wareho...

2019-11-21 20:31:23 28602

原创 DataGrip连接Hive教程

1. 从官网下载安装包下载网址 2. 安装第一步第二步第三步第四步3. 安装完成后输入激活码使用安装idea的图 datagrip 与此类似4. 配置Hive第一步第二步第三步可以在虚拟机上拷贝到本地第四步第五步 (看到如下信息即为成功)...

2019-11-20 21:30:41 35660 8

原创初学MapReduce

MapReduce计算框架并行计算框架一个大的任务拆分成多个小任务，将多个小任务分发到多个节点上。每个节点同时执行计算。MapReduce核心思想分而治之，先分后和：将一个大的、复杂的工作或任务，拆分成多个小的任务，并行处理，最终进行合并。MapReduce由Map和Reduce组成Map: 将数据进行拆分Reduce:对数据进行汇总...

2019-11-13 22:11:17 26910

原创 MapReduce计算每个单词出现的次数

文章目录准备工作WordCount计算原始数据期望的结果偏移量WordCount-Map实现WordCount-Reduce实现WordCount-Driver实现最终结果准备工作pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...

2019-11-13 09:51:03 25889

原创 HDFS新增节点与删除节点

准备工作:创建一台全新的虚拟机关闭防火墙修改主机名给IP起别名关闭selinuxssh免密登录1. 新增节点1.1 在主节点创建dfs.hosts文件在node01也就是namenode所在的机器的/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下添加如下主机名称（包含新服役的节点）[root@node01 Hadoo...

2019-11-07 16:43:40 27831

原创 HDFS介绍

文章目录1. HDFS 副本存放机制2. HDFS数据写入流程3. HDFS数据读取流程4. HDFS数据完整性5. HDFS适用场景1. HDFS 副本存放机制第一份数据来源于客户端第二份存放的位置是与第一个副本在相同机架上，且不在同一个节点，按照一定的规则（cpu 内存 IO是用率，和硬盘剩余容量）找到一个节点存放第三份副本的存放位置是与第一第二份数据副本不在同一个机架上，且逻辑与存放...

2019-11-04 20:52:55 6297

原创 Hadoop的组成部分

Hadoop的组成部分有:HDFS: 海量数据的存储系统Map Reduce: 海量数据的计算系统（计算框架）YARN: 集群资源管理（调度）的框架。HDFS管理者：NameNode作用：负责管理，管理集群内各个节点。负责管理整个文件系统的元数据（指的是数据的存放位置或存放路径）或名字空间辅助管理者：SecondaryNameNode作用：责辅助NameNode管理工...

2019-11-04 20:24:25 28079

原创大数据与传统数据对比

文章目录1. 传统服务器与大数据服务器的系统安装传统服务器大数据服务器系统安装2. 大数据技术为什么快1. 传统服务器与大数据服务器的系统安装传统服务器系统硬盘（100%完全独立，不要存储业务数据）物理磁盘做raid1（两个硬盘物理备份）/boot 200M/SWAP 内存的1-2被（大数据集群中要关闭）/ 所有的空间数据硬盘多块小的硬盘做一个大的硬盘（逻辑卷）大数据服务器...

2019-11-04 20:15:55 27479 1

原创大数据介绍及大数据项目流程

1. 什么是大数据？字面意思理解：大量的数据，海量的数据数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据2. 大数据有什么特点？ 1.海量化数据量大（多） 2.多样化结构化数据，半结构化数据，和非结构化数据 3.快速化数据的增长速度快 4.高价值...

2019-11-04 20:03:27 27528

原创 Hadoop安装 -- CDH分布式环境搭建

目标: 搭建基于CDH的分布式集群安装环境服务部署计划准备工作1.关闭防火墙/etc/init.d/iptables stop chkconfig iptables off2.关闭selinux3.修改主机名4.ssh无密码拷贝数据特别说明（在主节点无密码访问到从节点） ssh-keygen ssh-copy-id 192.168.100.201 ssh...

2019-10-31 20:19:20 28914 1

原创 Linux安装mysql及解决mysql乱码问题

文章目录1. 查询系统自带的mysql2. 安装mysql3. 启动服务4. 修改密码5. 问题1: 解决中文乱码1. 进入MySQL控制台2. 修改mysql配置文件3. 重启MySQL服务6. 问题2: 默认情况下 mysql服务端不允许客户端远程访问1. 查询系统自带的mysql[root@hadoop01 yum.repos.d]# rpm -qa | grep mysql mys...

2019-10-29 16:18:37 25240

hive-denpendencies.zip

空空如也