
【 大数据:上篇 】
全面讲解大数据开发,对接2020最新大数据
优惠券已抵扣
余额抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
HarkerYX
学习各类技术CSDN博客专家!
热爱日系指弹!
目前就职新能源汽车行业!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《大数据上篇: 学习导图》
《大数据: 学习导图》大数据学习前提JAVA基础 :《JAVA: 学习导图》更新中。。。《大数据: 介绍》《大数据: Maven 一》《大数据: Maven 二》《大数据: Hadoop(HDFS) 一》《大数据: Hadoop(MapReduce) 一》...原创 2020-08-27 17:25:02 · 1103 阅读 · 0 评论 -
《大数据: IDEA开发工具配置大全》
IDEA 配置三十六计1. IDEA 下载安装官网:https://www.jetbrains.com/idea/2.字符编码设置3.字体大小设置4.修改JDK版本5.创建Maven 项目选择 jar,pom,war, 不勾选默认...原创 2020-12-08 19:08:33 · 444 阅读 · 0 评论 -
《大数据: HBase与Hive集成使用》
一、HBase与Hive的对比1.HiveHive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询 Hive适用于离线的数据分析和清洗,延迟较高 Hive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行2.HBase是一种面向列存储的非关系型数据库 适用于单表非关系型数据的存储,不适合做关联查询,类似JOIN等操作 数据持久化存储的体现形式是Hfile,存放于DataNode中,被Resio原创 2020-12-08 17:23:39 · 235 阅读 · 0 评论 -
《大数据: HBase 优化与扩展》
一、HBase 优化1.高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置 regionserver由master负责高可用,一个regionserver挂掉那么它负责的region会自动分配给其他的regionserver①. 停止正在使用的hbase集群yexiang@had.原创 2020-12-08 16:46:42 · 193 阅读 · 0 评论 -
《大数据: HBase MapReduce》
一、MapReduce统计的需要:我们知道HBase的数据都是分布式存储在RegionServer上的,所以对于类似传统关系型数据库的group by操作,扫描器是无能为力的,只有当所有结果都返回到客户端的时候,才能进行统计。这样做一是慢,二是会产生很大的网络开销,所以使用MapReduce在服务器端就进行统计是比较好的方案。 性能的需要:说白了就是“快”!如果遇到较复杂的场景,在扫描器上添加多个过滤器后,扫描的性能很低;或者当数据量很大的时候扫描器也会执行得很慢,原因是扫描器和过滤器内部实现的机制很原创 2020-12-08 16:19:52 · 382 阅读 · 0 评论 -
《大数据: HBase 默认参数详解》
一、HBase 默认参数详解1. hbase-default.xml<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!-- hbase的本地临时目录,每次机器重启数据会丢失,建议放到某个持久化文件目录下 --> <property> <原创 2020-12-08 13:34:54 · 263 阅读 · 0 评论 -
《大数据: HBase 客户端API》
一、HBase 客户端API1. 创建Maven 项目2. 修改pom.xml 添加如下在对HBase执行增删改查时,只需要引入hbase-client模块即可,运行MR操作hbase时,需要引入hbase-server。拷贝hdfs-site.xml文件到客户端的类路径下<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</a原创 2020-12-07 19:23:22 · 237 阅读 · 0 评论 -
《大数据: HBase 读写流程》
一、RegionServer 架构StoreFile保存实际数据的物理文件,StoreFile以Hfile的形式存储在HDFS上。每个Store会有一个或多个StoreFile(HFile),数据在每个StoreFile中都是有序的MemStore写缓存,由于HFile中的数据要求是有序的,所以数据是先存储在MemStore中,排好序后,等到达刷写时机才会刷写到HFile,每次刷写都会形成一个新的HFileWAL由于数据要经MemStore排序后才能刷写到HFile,但把数据保存在内原创 2020-12-07 19:21:17 · 305 阅读 · 0 评论 -
《大数据: HBase shell》
一、HBase shell 操作1. hbase 命令查看帮助yexiang@hadoop2:<hbase-1.3.1>$ hbaseUsage: hbase [<options>] <command> [<args>]Options: --config DIR Configuration direction to use. Default: ./conf --hosts HOSTS Override the list in原创 2020-12-07 16:24:33 · 241 阅读 · 0 评论 -
《大数据: ZooKeeper 客户端API》
一、ZooKeeper 客户端API讲解JAVA 中运行 Zookeeper API 1. IDEA 创建一个Maven 项目,我们就叫 zookeeper2.添加pom文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE<..原创 2020-12-04 19:46:24 · 187 阅读 · 0 评论 -
《大数据: ZooKeeper 数据同步流程》
一、ZooKeeper 数据同步流程在 Zookeeper 中,主要依赖 ZAB 协议来实现分布式数据一致性。ZAB 协议分为两部分:消息广播 崩溃恢复消息广播Zookeeper 使用单一的主进程 Leader 来接收和处理客户端所有事务请求,并采用 ZAB 协议的原子广播协议,将事务请求以 Proposal 提议广播到所有 Follower 节点,当集群中有过半的Follower 服务器进行正确的 ACK 反馈,那么Leader就会再次向所有的 Follower 服务器发送commit原创 2020-12-04 19:43:20 · 364 阅读 · 0 评论 -
《大数据: ZooKeeper 监听源码分析》
一、ZooKeeper 监听源码分析Watcher 的基本流程ZooKeeper 的 Watcher 机制,总的来说可以分为三个过程:客户端注册 Watcher、服务器处理 Watcher 和客户端回调 Watcher 客户端注册 watcher 有 3 种方式, getData、 exists、 getChildren;以如下代码为例来分析整个触发机制的原理1. 基于 zkclient 客户端发起一个数据操作<dependency><groupId>c..原创 2020-12-04 19:41:03 · 343 阅读 · 0 评论 -
《大数据: ZooKeeper 选举源码分析》
一、ZooKeeper 选举源码分析源码分析,最关键的是要找到一个入口,对于 zk 的 leader 选举,并不是由客户端来触发,而是在启动的时候会触发一次选举。因此我们可以直接去看启动脚本 zkServer.sh 中的运行命令,ZOOMAIN 就是 QuorumPeerMain。那么我们基于这个入口来看 nohup "$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}"原创 2020-12-04 19:38:31 · 277 阅读 · 0 评论 -
《大数据: ZooKeeper 选举机制》
一、ZooKeeper 选举机制1. 前提理论介绍zookeeper 的来源,是来自于 google chubby。为了解决在分布式环境下,如何从多个 server 中选举出 master server。那么这多个 server 就需要涉及到一致性问题,这个一致性体现的是多个server 就 master 这个投票在分布式环境下达成一致性。简单来说就是最终听谁的。但是在网络环境中由于网络的不可靠性,会存在消息丢失和或者被篡改等问题。所以如何在这样一个环境中快速并且正确的在多个server 中对某一个原创 2020-12-04 17:43:30 · 249 阅读 · 0 评论 -
《大数据: Phoenix 创建HBase 二级索引》
一、Phoenix 创建HBase 二级索引在前面的学习中, 我们知道 HBase 只能通过 rowkey 进行搜索, 一般把 rowkey 称作一级索引. 在很长的一段时间里 HBase 就只支持一级索引 HBase 里面只有 rowkey 作为一级索引, 如果要对库里的非 rowkey 字段进行数据检索和查询, 往往要通过 MapReduce/Spark 等分布式计算框架进行,硬件资源消耗和时间延迟都会比较高 为了 HBase 的数据查询更高效、适应更多的场景, 诸如使用非 rowkey 字段检原创 2020-12-03 17:04:26 · 342 阅读 · 0 评论 -
《大数据: Phoenix 视图和表映射》
一、Phoenix 表映射默认情况下, 直接在 HBase 中创建的表通过 Phoenix 是查不到的phoenix:0: jdbc:phoenix:hadoop1,hadoop2,hadoop3:2181> !tables +------------+--------------+----------------+---------------+----------+------------+----------------------------+------+| TABLE_C.原创 2020-12-03 16:44:36 · 403 阅读 · 0 评论 -
《大数据: Phoenix 表操作》
一、Phoenix 表操作1. Phoenix显示所有表TABLE_SCHEM 是库, TABLE_NAME 是表,这些都是Hbase默认的库和表就好像mysql中默认的那样0: jdbc:phoenix:hadoop1,hadoop2,hadoop3:2181> !tables+------------+--------------+-------------+---------------+----------+------------+----------------------原创 2020-12-02 16:14:04 · 432 阅读 · 0 评论 -
《大数据: Kafka 安装与集群配置》
一、Kafka 安装下载地址:http://kafka.apache.org/downloads我这边用是 0.11.0.2 版本 名字说明: 2.11 指的是 scala 语言版本号, 0.11.0.2 真正的kafka 版本号1. 解压包tar -xzvf kafka_2.11-0.11.0.2.tgz -C /opt/soft/2. 修改配置 config/server.propertieslog.dirs这里不是存放log的地方,而是数据存放位置 kafka需...原创 2020-11-19 16:32:16 · 212 阅读 · 0 评论 -
《大数据: Phoenix 介绍与安装》
一、Phoenix 简介一、Phoenix 安装原创 2020-12-02 13:07:51 · 503 阅读 · 0 评论 -
《大数据: Kafka 监控:KafkaTool》
一、KafkaTool1. 安装kafkatool_64bit.exe2. 打开kafkatool 添加集群,可以Test测试是否OK连接成功后,可以看到信息3. 修改配置方便查看数据,String类型如 查看test 我们之前加的 11111 22222...原创 2020-11-30 19:13:38 · 301 阅读 · 0 评论 -
《大数据: Kafka 监控:KafkaMonitor》
一、KafkaMonitor1.上传jar包KafkaOffsetMonitor-assembly-0.4.6.jar到集群2.在/opt/soft/下创建kafka-offset-console文件夹,把jar包放入yexiang@hadoop2:<soft>$ mkdir KafkaMonitoryexiang@hadoop2:<KafkaMonitor>$ ls -altotal 57952drwxrwxr-x 2 yexiang yexiang原创 2020-11-30 18:51:26 · 513 阅读 · 0 评论 -
《大数据: Kafka 监控:KafkaManager》
一、KafkaManager1. 上传压缩包kafka-manager-1.3.3.15.zip到集群2.解压kafka-manager-1.3.3.15.zipyexiang@hadoop2:<soft>$ unzip kafka-manager-1.3.3.15.zip yexiang@hadoop2:<soft>$ ls -al kafka-manager-1.3.3.15total 40drwxrwxr-x 6 yexiang yexiang 409原创 2020-11-30 18:24:52 · 286 阅读 · 0 评论 -
《大数据: Kafka 生产者数据可靠性保证》
一、数据可靠性保证为保证producer发送的数据,能可靠的发送到指定的topic,topic的每个partition(leader和副本)收到producer发送的数据后,都需要向producer发送ack(acknowledgement确认收到),如果producer收到ack,就会进行下一轮的发送,否则重新发送数据1.副本数据同步策略 方案 优点 缺点 半数以上完成同步,就发送ack 延迟..原创 2020-11-30 16:02:33 · 373 阅读 · 0 评论 -
《大数据: Kafka 消费者》
一、Kafka 消费者消费方式consumer采用pull(拉)模式从broker中读取数据push(推)模式很难适应消费速率不同的消费者,因为消息发送速率是由broker决定的。它的目标是尽可能以最快速度传递消息,但是这样很容易造成consumer来不及处理消息,典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息pull模式不足之处是,如果kafka没有数据,消费者可能会陷入循环中,一直返回空数据。针对这一点,Kafka的消费者在消费原创 2020-11-19 19:10:26 · 202 阅读 · 0 评论 -
《大数据: Kafka 生产者》
一、Kafka 生产者1. 分区策略分区的原因方便在集群中扩展,每个Partition可以通过调整以适应它所在的机器,而一个topic又可以有多个Partition组成,因此整个集群就可以适应任意大小的数据了可以提高并发,因为可以以Partition为单位读写了分区的原则我们需要将producer发送的数据封装成一个ProducerRecord对象指明 partition 的情况下,直接将指明的值直接作为 partiton 值没有指明 partition 值但有 key 的情况下,将原创 2020-11-19 18:59:17 · 283 阅读 · 0 评论 -
《大数据: Kafka 命令行操作》
一、Kafka 命令行操作1. Kafka 是要用到zookeeper,那么zookeeper帮Kafka做了什么事呢?①. 启动zookeeper②.先看没启动Kafka的zookeeper有什么,这边是空没任何东西yexiang@hadoop2:<zookeeper-3.4.10>$ zkCli.sh -server hadoop3:2181 ...[zk: hadoop3:2181(CONNECTED) 9] ls /[cluster, controller_e.原创 2020-11-19 18:55:20 · 250 阅读 · 0 评论 -
《大数据:(电商数仓项目) Hadoop性能测试与调优》
一、Hadoop性能测试1. 测试HDFS写性能:向HDFS集群写10个128M的文件yexiang@hadoop2:<~>$ hadoop jar /opt/soft/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB2.测试HDFS读性能:读取HDFS集群10个128..原创 2020-11-19 14:27:21 · 320 阅读 · 0 评论 -
《大数据:(电商数仓项目) 集群各服务启动脚本》
一、集群各服务启动脚本1. Hadoop 启动停止脚本 (yx_hadoop.sh)#!/bin/bash#hadoop集群的一键启动脚本if(($#!=1))then echo '请输入start|stop参数!' exit;fi#只允许传入start和stop参数if [ $1 = start ] || [ $1 = stop ]then $1-dfs.sh $1-yarn.sh ssh hadoo原创 2020-11-19 11:37:31 · 236 阅读 · 0 评论 -
《大数据:(电商数仓项目) Hadoop-lzo 编译》
一、Hadoop-lzo 编译hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译1. 编译环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像) gcc-c++ zlib-devel autoconf automake libtool如果之前有编译过hadoop源码这类的,环境没什么太大变化,可以直接拿来用,不需要浪费额外的时间...原创 2020-11-18 17:56:14 · 195 阅读 · 0 评论 -
《大数据:(电商数仓项目) Hadoop 支持 LZO 压缩配置》
一、Hadoop 支持 LZO 压缩配置前一章说了如何编译,生成的jar 名为hadoop-lzo-0.4.20.jar1. 把hadoop-lzo-0.4.20.jar 放到 hadoop2 机器中hadoop-2.7.2/share/hadoop/common/ 目录下yexiang@hadoop2:<common>$ pwd/opt/soft/hadoop-2.7.2/share/hadoop/commonyexiang@hadoop2:<common>...原创 2020-11-18 17:45:15 · 205 阅读 · 0 评论 -
《大数据:(电商数仓项目) FastJson 框架》
一、FastJson 框架JSON对象: {"属性名":"属性值","属性名":"属性值","数组":[]} JSON数组: [{},{},{}] FastJson是阿里巴巴的框架,用的是JSONObject类看出JSONObject 类用的是 Map进行存放public JSONObject(Map<String, Object> map) { if (map == null) { throw new IllegalArgumentExcepti...原创 2020-11-18 17:06:33 · 217 阅读 · 0 评论 -
《大数据:(电商数仓项目) 数据生成脚本》
一、数据生成脚本1. 创建Maven项目原创 2020-11-17 15:16:24 · 490 阅读 · 0 评论 -
《大数据:(电商数仓项目) 数据格式》
一、埋点数据基本格式公共字段:基本所有安卓手机都包含的字段 业务字段:埋点上报的字段,有具体的业务类型示例:业务字段(json格式){"ap":"xxxxx",//项目数据来源 app pc"cm": { //公共字段 "mid": "", // (String) 设备唯一标识 "uid": "", // (String) 用户标识 "vc": "1", // (String) versionCode,程序版本号 "vn": "1原创 2020-11-17 14:43:28 · 345 阅读 · 0 评论 -
《大数据: IDEA安装使用》
一、IDEA安装使用1. IDEA 下载安装官网:https://www.jetbrains.com/idea/分享目录中有破解版,这里不多说,一般官网下载能够免费使用时间一个月2. IDEA 常规配置①. 字符编码设置②. 字体大小设置③.代码提示功能设置④. 修改JDK版本...原创 2020-11-16 14:30:49 · 822 阅读 · 0 评论 -
《大数据: Sqoop 常用命令和参数》
一、Sqoop 常用命令 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTo原创 2020-10-29 19:45:27 · 214 阅读 · 0 评论 -
《大数据: Sqoop 导出数据》
一、Sqoop 导出数据到MySQL在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字命令解析sqoop export \//连接数据库时指定连上哪个数据库--connect jdbc:mysql://hadoop1:3306/HarkerYX\--username root \--password root\//要导出的mysql的表的表名--table sqoop\--num-mappe原创 2020-10-29 19:36:00 · 306 阅读 · 1 评论 -
《大数据: Sqoop 导入数据》
一、Sqoop 导入到 HDFS在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字1. 确定Mysql 开启,不多说2. 创建表,我这边就用图形客户端登入创建方便CREATE DATABASE HarkerYXUSE HarkerYXCREATE TABLE `sqoop`(`id` INT(10) NOT NULL AUTO_INCREMENT,`name` VARCHAR(原创 2020-10-29 19:27:16 · 237 阅读 · 0 评论 -
《大数据: Sqoop 介绍与安装》
一、Sqoop 介绍官网:http://sqoop.apache.org/1. Sqoop:( SQL To Hadop )目的是完成关系型数据库导入导出到HadoopSqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)之间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中 Sqoop项目开始于2009年.原创 2020-10-29 14:24:11 · 198 阅读 · 0 评论 -
《大数据:(电商数仓项目) 需求和架构设计》
一、数据仓库概念数据仓库(Data Warehouse)是为企业所有决策制定过程,提供所有系统数据支持的战略集合 通过对数据仓库中数据的分析可以帮助企业,改进业务流程、控制成本、提供产品质量等 数据仓库,并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据清洗、转义、分类、重组、合并、拆分、统计等ETL: (Extract-Transform-Load) :用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程上.原创 2020-10-29 12:57:52 · 500 阅读 · 0 评论 -
《大数据: HBase 服务启动》
一、HBase 服务启动1. 首先保证Zookeeper集群的正常部署,并启动yexiang@hadoop1:<zookeeper-3.4.10> zkServer.sh startyexiang@hadoop2:<zookeeper-3.4.10> zkServer.sh startyexiang@hadoop3:<zookeeper-3.4.10> zkServer.sh start2.启动Hadoop,yarn 等yexiang@hadoo.原创 2020-10-28 19:15:16 · 508 阅读 · 0 评论