自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (3)
  • 收藏
  • 关注

原创 大数据组件-redis概念,数据结构,命令行操作,持久化,java客户端的Jedis操作,连接池JedisPool,实现连接池工具类

目录标题1.redis概念2.下载安装3.redis数据结构4.redis命令行操作(1)字符串类型 string(2)哈希类型 hash(3)列表类型 list(4)集合类型 set:不允许重复元素(5)有序集合类型sortedset:不允许重复元素,且元素有顺序(6)通用命令5.持久化(1)持久化使用场景(2)redis持久化机制1.RDB:默认方式1.1编辑redis.conf文件进行配置2.AOF:日志记录的方式2.1编辑reids.conf文件进行配置5.java客户端 Jedis(1)使用场景(

2020-05-31 00:57:07 203

原创 大数据组件-Hive简介,分层架构,安装方式,hive交互,数据库,数据表操作,自定义hive函数,hive数据存储,hive调优

啊啊啊

2020-05-30 06:33:27 1707

原创 大数据组件-Apache Sqoop,工作机制,安装配置,全量增量导入到hdfs,hive数仓,导出

啊啊啊

2020-05-30 06:33:09 587

原创 大数据组件-Flume自定义拦截器,高阶自定义组件

版本统一:jdk:1.8hadoop:2.5.7zk:flume:目录标题1.自定义拦截器(1)配置maven依赖(2)java编写实现的整体概览(3)代码实现模板(4)打jar包,上传jar包到flume的lib目录(5)设置自定义flume的配置文件(6)启动fluem开始监听Flume高阶自定义组件1.自定义拦截器flume提供了java的API接口,我们可以通过java来实现自定义拦截器(1)配置maven依赖<dependencies> <dep

2020-05-30 06:32:41 360

原创 大数据基础-scala样例类,模式匹配,Option类型,偏函数,正则,异常处理,提取器,泛型,Actor并发变成,WordCount案例

啊啊啊

2020-05-30 06:32:22 288

原创 大数据基础-scala作为值的函数,匿名函数,闭包,柯里化,隐式转换和隐式参数,Akka并发框架,模拟简易版的spark通信

高阶函数1.值的函数(1)使用场景函数可以向数字,字符串一样,可以将函数传递给一个方法(2)示例package com.day04object FuncDemo { def main(args: Array[String]): Unit = { //1.创建函数,将数字转换为小星星 val function: Int => String = (num:Int) => "*" * num //2.创建列表,执行转换 val resultList =

2020-05-30 06:31:41 296

原创 python-pyecharts实现数据分析-超细致流-逐行注解

分析思路1.每日新增数据 : 今日新增确诊 = 今日确诊病例-昨日确诊病例2.确诊病例增长率: 今日确诊病例增长率 = 今日确诊新增/昨日确诊病例3.累计确诊病例:柱形图4.确诊病例增长率:折线图5.多图合并

2020-05-29 20:18:05 2257

原创 智慧出行-redis安装,实现redis变为开机自动启动后台服务,实现一个物理机有多个redis进程

redis我们安装到node02节点目录标题1.进入到linux指定目录中2.下载redis,执行如下命令:3.解压下载的文件4.进入到redis目录中,编译安装redis,命令如下5.进入到src目录下,命令如下6.在scr目录中建文件夹bin,etc,命令如下:7.为了方便管理,将redis-4.0.8文件目录中的conf配置文件和src目录中常用命令拷贝到统一文件中,命令如下(这些文件都是第五步中图的文件)8.启动redis9.修改redis配置文件10.重新启动redis,并指定配置文件1.进入

2020-05-29 15:48:32 174

原创 数据库基础-mysql相关操作速查表

使用xxx数据库创建商品表操作插入商品数据操作查看表操作删除表操作修改表查看表内容更新修改表中的数据方式一:方式二:修改更新某一部分数据删除数据操作方式一:方法二:删除操作delete和truncate的区别delete删除是一行一行的删除,如果表设置有自增长,删除后不能恢复自增长的初始化而truncate是直接drop表,在create表...

2020-05-29 14:17:02 322

原创 大数据基础-Redis安装配置

redis中文网站地址统一版本:redis3.2.8redis环境安装1.下载redis安装包在node01服务器下执行一下命令下载redis安装包cd /export/softwareswget http://download.redis.io/releases/redis-3.2.8.tar.gz2.解压redis压缩包到指定目录node01执行以下命令进行解压rediscd /export/softwarestar -zxvf redis-3.2.8.tar.gz -C ../

2020-05-29 14:16:01 147

原创 大数据疑难杂症-WARN [kafka-producer-network-thread | producer-1] - [Producer clientId=producer-1] Connectio

环境统一:CDH:5.14.2Kafka:3.0.1报错截图解决办法:在hosts文件下设置ip映射成功运行:

2020-05-28 23:55:26 5352

原创 大数据组件-Kafka的javaAPI操作,Kafka StreamingAPI开发,

1.KafkaJavaApi操作1.添加maven依赖 <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.10.0.0</version>

2020-05-28 10:45:34 236

原创 大数据组件-Kafka简介,术语,架构,安装搭建教程,kafka集群命令行操作

统一版本:zk:kafka:0.10.0.0jdk:1.8消息系统的分类1.点对点主要采用的队列的方式,如A->B 当B消费的队列中的数据,那么队列的数据就会被删除掉【如果B不消费那么就会存在队列中有很多的脏数据】2.发布-订阅发布与订阅主要三大组件主题:一个消息的分类发布者:将消息通过主动推送的方式推送给消息系统;订阅者:可以采用拉、推的方式从消息系统中获取数据kafka简介apache kafka是一个分布式发布-订阅消息系统和一个强大的队列,可以处理大量的数据,并使能够

2020-05-27 14:53:43 379

原创 大数据组件-HBase和MapReduce的集合,读取HDFS到HBase,hive和HBase整合,HBase的预分区

1.HBase和MapReduce的集成HBse集成MR的中文API文档需求:将myuser表当中的f1列族的name和age字段写入待myuser2这张表的f1列族当中去ImmutableBytesWritable 序列,hbase的存储类型NullWriter没有数据context上下文的作用是起到桥梁作用把map阶段处理完的数据传递给reduce阶段(1)在原有基础上导入集成MR的maven工程(2)代码实现本地运行1.创建Mapper类,读取出表myuser的name和age字段,写

2020-05-27 14:50:54 362

原创 大数据组件-hbase简介架构,hbase集群搭建,高可用配置,表模型,hbase shell操作,javaAPI操作,创建表,向表添加数据,查询数据,过滤器查询,删除表

啊啊啊

2020-05-27 01:32:33 442

原创 大数据组件-什么是RDD,saprkRDD分区和Shuffle,缓存,Checkpoint

RDD分区RDD分区是一个并行计算实现的手段1.查看分区的手段(1)使用partitions查看rdd.partitions.size(2)使用webUI页面查看node01:4040

2020-05-23 14:45:48 543

原创 大数据小demo-TOP统计dongsi地区PM值最高的几个月份

目录标题数据结构概览:流程梳理:代码实现数据结构概览:流程梳理:1.读取文件2.抽取需要的列3.以年月为基础,进行reduceByKey统计dongsi地区的PM4.排序5.获取结果代码实现package cn.ityuge.spark.rddimport org.apache.ivy.util.StringUtilsimport org.apache.spark.{SparkConf, SparkContext}import org.junit.Testclass PmDa

2020-05-23 01:39:01 235

原创 大数据组件-sparkTransformations算子,Action算子,速查表

目录标题Transformations算子(惰性的)mapmapPartitions(List[T]->List[U])1.使用场景2.示例mapPartitionsWithIndex1.使用场景2.示例mapValues1.使用场景2.示例Filter过滤1.使用场景2.示例sample抽样1.使用场景2.示例集合操作-并集union集合操作-交集intersection集合操作-插集subtract1.使用场景2.示例reduceByKey1.使用场景2.示例groupByKey1.使用场景2.示

2020-05-23 00:50:34 187

原创 大数据小demo- 对网页后台日志中的日志数据做统计,统计独立ip数量,Top10

目录标题日志的数据结构概览:实现逻辑梳理:代码实现:日志的数据结构概览:实现逻辑梳理:取出IP,生成一个只有IP的数据集简单清洗聚合:统计ip出现次数按照ip出现次数排序,取出前十代码实现:创建AcesslogAgg类实现上述需求package cn.ityuge.spark.rddimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.junit.

2020-05-22 00:20:22 337

原创 大数据组件-Spark简介,Spark集群搭建,高可用配置,spark并行计算(RDD)的五个特性,sparkshell编写代码,IDEA编写代码本地运行和集群运行,RDD编程模型

统一配置环境:zk:jdk:idea:目录标题Spark概述集群搭建(1)下载spark安装包(2)上传并解压(3)配置spark-env.sh(5)修改slaves1.使用场景环境2.配置流程(4)配置HistoryServe1.使用场景2.配置流程(5)分发(6)高可用配置1.使用场景2.实现流程3.分发配置到整个集群4.启动(7)配置spark环境1.修改配置文件2.使得配置生效spark shell1.使用场景2.读取本地文件(1)准备文件(2)启动 Spark shell读取本地文件进行词

2020-05-21 23:00:25 303

原创 大数据基础-大数据常用maven依赖配置速查表

properites 参数的配置<properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> <slf4j.version>1.7.16</slf4j.version> <log4j.version>1.2.17</log4j.v

2020-05-21 17:47:16 396 1

原创 大数据组件-Apache Flume简介,架构,安装部署,Flume全量采集目录/增量文件到hdfs,负载均衡,容错,静态拦截器

版本统一:目录标题Fluem简介,架构Flume安装部署Fluem简介,架构概述Flume是一款大数据中海量日志采集,聚合和传输汇总的软件.这里的采集特指的是数据流转的过程,或者说是数据搬运的过程.把数据从一个存储介质通过flume传递带另一个存储介质中.核心组件source:用于对接各个不同的数据源sink:用于对接各个不同存储数据的目的地(数据的下沉地)channel:用于中间临时存储缓存数据Flume采集系统结构运行机制flum本身就是java程序,在需要采集数据的机器上启

2020-05-17 11:01:52 753

原创 大数据基础-scala简介,安装配置,基础语法,类和对象(单例对象,伴生对象,isinstance,asInstance,getClass,classOf,抽象类,匿名内部类,特质)

环境统一:jdk目录标题scala简介scala安装配置scala语法格式1.开启scala解释器,并执行hello world2.变量(1)语法格式(2)惰性赋值4.字符串(1)插值表达式(2)使用三引号5.条件表达式(1)有返回值的if(2)块表达式6.循环(1)for表达式(2)嵌套循环(3)在for表达式中添加判读语句(4)for推导式(5)while循环(6)实现break(7)continue跳过方法(2)方法的调用函数(1)定义函数(2)方法和函数的区别(3)方法转化为函数数组(1)定长数组

2020-05-16 01:10:09 782

原创 java继承-switch-case用法

switch-case 一般的用它来做值匹配的。 switch(表达式){ case 值1: 表达式的值和 值1匹配上了,需要执行的代码; break; case 值2: 表达式的值和 值2匹配上了,需要执行的代码; break; case 值3: 表达式的值和 值3匹配上了,需要执行的代码; ...

2020-05-11 17:55:18 318

原创 大数据基础-安装maven依赖仓库教程,idea配置maven插件,pom文件内容构成

啊啊啊

2020-05-10 00:22:00 395

原创 大数据疑难杂症-安装hive后启动失败问题

目录标题1.报错截图2.原因3.解决方案1.报错截图2.原因没有hive的元数据表。3.解决方案1)在配置hive-site.xml的jdbc的url时,在连接中加上createDatabaseIfNotExist=true2)使用该命令创建hive元数据表schematool -initSchema -dbType mysql...

2020-05-07 22:40:31 225

原创 大数据组件-Yarn资源调度

啊啊啊

2020-05-07 00:58:51 864

原创 大数据组件-MapReduce编写规范,WordCount,实现SQL的join,共同好友,实现手机流量统计,实现小文件合并,分区放置文件,分组求TopN案例;MR分区,计数器,排序,规约,运行机制;

不写爽文,只搞干货,相关数据文件依赖皆有,方便读者自己实现

2020-05-06 21:29:03 399

log4j.properties

Java接口实现hadoop操作后在窗口打印,大数据相关应用实现所需要的数据资源,请下载,实现,在我的文章中.....................

2020-05-05

ordercomment.csv

大数据相关应用实现所需要的数据资源,请下载,实现,在我的文章中............................................................................

2020-05-05

data_flow.dat

大数据相关应用实现所需要的数据资源,请下载,实现,在我的文章中

2020-05-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除