大数据
潘书鹏的BigData
用双手改造世界!!!
展开
-
一键启动Zookeeper教程
1. 编写脚本#! /bin/bashcase $1 in"start"){ for i in node01 node02 node03 do ssh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start" done};;"stop"){ for i in node01 node02 node03 do ...原创 2020-03-17 17:26:31 · 19922 阅读 · 0 评论 -
大数据流程练习题
本题是一个综合练习题目总共包括以下部分:1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例,请先阅读数据说明,再做相应题目。数据说明:表1-1 视频表字段 备注 详细描述表1-2 用户表字段 备注 字段类型原始数据:qR8WRLrO2aQ:mienge:406:People &...原创 2020-01-07 08:20:32 · 21036 阅读 · 0 评论 -
HBase 的 java 代码开发 -- pom文件
<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository><...原创 2019-12-17 17:49:31 · 23849 阅读 · 1 评论 -
HBase 面试题
文章目录HBase的基本介绍HBASE的适用场景Hbase和Hadoop之间的关系Hbase与RDBMS的关系Hbase特征简要说明hbase的基础架构HBase的底层原理HBase的表数据模型Row Key列族Column Family列 Column时间戳Cell存储数据的最小单位VersionNumhbase物理存储region的切分Memstore与storefileHLog(WAL lo...原创 2019-12-17 17:33:09 · 23815 阅读 · 1 评论 -
ERROR:org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
异常信息 :解决方法 : 集群时间不同设置一下时间在完成上部操作之后,重启hbase服务时又会报错:ERROR: Can't get master address from ZooKeeper; znode data == nullHere is some help for this command:List all tables in hbase. Optional regula...原创 2019-12-12 09:46:33 · 25674 阅读 · 3 评论 -
HBase 从节点启动不了HRegionServer
异常信息:导致原因 :从节点与主节点的时间差了31秒多, 如果时间相差30秒以上则会报此异常解决方案:三台机器时间同步 ntpdate ntp4.aliyun.com原创 2019-12-12 09:37:10 · 25749 阅读 · 1 评论 -
HBase 的集群环境搭建
注意事项:HBase强依赖zookeeper和hadoop,安装HBase之前一定要保证zookeeper和hadoop启动成功,且服务正常运行第一步: 下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下: 下载地址HBase对应的版本下载地址如下: 下载地址第二步: 压缩包上传并解压将我们的压缩包上传到node01服务器的/export/softwares路径下并解压...原创 2019-12-11 20:41:13 · 24847 阅读 · 1 评论 -
Impala 介绍
文章目录1. Impala基本介绍2. Impala与Hive关系3. Impala与Hive异同3.1 Impala使用的优化技术3.2 执行计划3.3 数据流3.4 内存使用3.5 调度3.6 容错3.7 适用面4. Impala架构4.1 Impalad4.2 Impala State Store4.3 CLI4.4 Catalogd(目录)5. Impala查询处理过程1. Impala...原创 2019-12-10 20:33:38 · 25823 阅读 · 0 评论 -
Impala-shell命令参数
文章目录1. impala-shell外部命令2. impala-shell内部命令1. impala-shell外部命令所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impala-shell 时设置,用于修改命令执行环境。impala-shell –h可以帮助我们查看帮助手...原创 2019-12-10 20:06:19 · 25132 阅读 · 0 评论 -
Impala 安装部署
1. 安装前提集群前提安装好hadoop,hive。 hive安装包scp在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。 hadoop框架需要支持C程序访问接口,查看下图,如果有该路径下有这么文件,就证明支持C接口。2. 下载安装包,依赖包由于impala没有提供tar包进行安装,只提供了rpm包。因此在安装impala的时候,需要使用rp...原创 2019-12-10 17:51:15 · 25113 阅读 · 1 评论 -
ZooKeeper Java API
org.apache.zookeeper.Zookeeper Zookeeper是在Java中客户端主类,负责建立与zookeeper集群的会话,并提供方法进行操作。org.apache.zookeeper.Watcher Watcher接口表示一个标准的事件处理器,其定义了事件通知相关的逻辑,包含KeeperState和EventType两个枚举类,分别代表了通知状态和事件类...原创 2019-12-10 09:07:02 · 24594 阅读 · 1 评论 -
ZooKeeper 简介
文章目录1. Zookeeper基本知识1.1 ZooKeeper集群搭建1.2 ZooKeeper概述1.3 ZooKeeper特性1.4 ZooKeeper集群角色2. ZooKeeper shell2.1 客户端连接2.2 shell基本操作3. ZooKeeper数据模型3.1 数据结构图3.2 节点类型3.3 节点属性4. ZooKeeper Watcher(监听机制)4.1 Watch...原创 2019-12-10 09:05:11 · 24756 阅读 · 0 评论 -
ZooKeeper集群搭建
安装zookeeper的注意事项:安装前需要安装好jdk检测集群时间是否同步检测防火墙是否关闭检测主机 ip映射有没有配置下载地址:CDH版本:下载地址apache版本:下载地址1. 上传解压上传路径:[root@node01 /]# cd /export/soft解压:[root@node01 soft]# tar -zxvf zookeeper-3.4.5-c...原创 2019-12-09 21:12:09 · 24767 阅读 · 6 评论 -
java.nio.charset.MalformedInputException: Input length = 1
异常信息:2019-12-05 15:43:05,589 (pool-5-thread-1) [ERROR - org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirectorySource.java:280)] FATAL: Spool Directory source r1: { spo...原创 2019-12-05 16:24:49 · 26288 阅读 · 1 评论 -
Sqoop安装步骤
前提:安装 sqoop 的前提是已经具备 java 和 hadoop 的环境建议使用版本: 1.4.6 (最新最稳定版)1. 上传安装包并解压2. 修改配置文件$SQOOP_HOME 为你解压到路径[root@node01 conf]# cd $SQOOP_HOME/conf给配置文件重命名[root@node01 conf]# mv sqoop-env-template.sh ...原创 2019-12-04 21:30:43 · 26385 阅读 · 0 评论 -
Hive简介
文章目录Hive基本概念Hive的意义是什么Hive可以对数据进行存储与计算Hive的特性Hive缺点Hive的内部组成架构数据格式:Hive中没有定义专门的数据格式数据格式部分自定义:hive支持的数据格式Hive元数据Hive安装部署Hive的访问方式Hive传选项数据库的基本操作 hive的数据库、表、分区在HDFS的表现形式是文件夹 数据库的默认路径:/user/hive/wareho...转载 2019-11-21 20:31:23 · 28491 阅读 · 0 评论 -
初学MapReduce
MapReduce计算框架并行计算框架一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算。MapReduce核心思想分而治之,先分后和:将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。MapReduce由Map和Reduce组成Map: 将数据进行拆分Reduce:对数据进行汇总...原创 2019-11-13 22:11:17 · 26586 阅读 · 0 评论 -
MapReduce计算每个单词出现的次数
文章目录准备工作WordCount计算原始数据期望的结果偏移量WordCount-Map实现WordCount-Reduce实现WordCount-Driver实现最终结果准备工作pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2019-11-13 09:51:03 · 25669 阅读 · 0 评论 -
HDFS新增节点与删除节点
准备工作:创建一台全新的虚拟机关闭防火墙修改主机名给IP起别名关闭selinuxssh免密登录1. 新增节点1.1 在主节点创建dfs.hosts文件在node01也就是namenode所在的机器的/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下添加如下主机名称(包含新服役的节点)[root@node01 Hadoo...原创 2019-11-07 16:43:40 · 27478 阅读 · 0 评论 -
HDFS介绍
文章目录1. HDFS 副本存放机制2. HDFS数据写入流程3. HDFS数据读取流程4. HDFS数据完整性5. HDFS适用场景1. HDFS 副本存放机制第一份数据来源于客户端第二份存放的位置是与第一个副本在相同机架上,且不在同一个节点,按照一定的规则(cpu 内存 IO是用率,和硬盘剩余容量)找到一个节点存放第三份副本的存放位置是与第一第二份数据副本不在同一个机架上,且逻辑与存放...原创 2019-11-04 20:52:55 · 5980 阅读 · 0 评论 -
Hadoop的组成部分
Hadoop的组成部分有:HDFS: 海量数据的存储系统Map Reduce: 海量数据的计算系统(计算框架)YARN: 集群资源管理(调度)的框架。HDFS管理者:NameNode作用:负责管理,管理集群内各个节点。负责管理整个文件系统的元数据(指的是数据的存放位置或存放路径)或名字空间辅助管理者:SecondaryNameNode作用:责辅助NameNode管理工...原创 2019-11-04 20:24:25 · 27953 阅读 · 0 评论 -
大数据与传统数据对比
文章目录1. 传统服务器与大数据服务器的系统安装传统服务器大数据服务器系统安装2. 大数据技术为什么快1. 传统服务器与大数据服务器的系统安装传统服务器系统硬盘(100%完全独立,不要存储业务数据)物理磁盘做raid1(两个硬盘物理备份)/boot 200M/SWAP 内存的1-2被(大数据集群中要关闭)/ 所有的空间数据硬盘多块小的硬盘 做一个大的硬盘(逻辑卷)大数据服务器...原创 2019-11-04 20:15:55 · 27370 阅读 · 1 评论 -
大数据介绍及大数据项目流程
1. 什么是大数据? 字面意思理解:大量的数据,海量的数据 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据2. 大数据有什么特点? 1.海量化 数据量大(多) 2.多样化 结构化数据,半结构化数据,和非结构化数据 3.快速化 数据的增长速度快 4.高价值...原创 2019-11-04 20:03:27 · 27396 阅读 · 0 评论 -
Hadoop安装 -- CDH分布式环境搭建
目标: 搭建基于CDH的分布式集群安装环境服务部署计划准备工作1.关闭防火墙/etc/init.d/iptables stop chkconfig iptables off2.关闭selinux3.修改主机名4.ssh无密码拷贝数据特别说明(在主节点无密码访问到从节点) ssh-keygen ssh-copy-id 192.168.100.201 ssh...原创 2019-10-31 20:19:20 · 28697 阅读 · 1 评论