自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

紫蝶侠的博客

学习使人进步

  • 博客(649)
  • 资源 (7)
  • 收藏
  • 关注

原创 Hbase Java编程

6. Hbase Java编程6.1 需求与数据集某某自来水公司,需要存储大量的缴费明细数据。以下截取了缴费明细的一部分内容。!在这里插入图片描述因为缴费明细的数据记录非常庞大,该公司的信息部门决定使用HBase来存储这些数据。并且,他们希望能够通过Java程序来访问这些数据。6.2 准备工作6.2.1 创建IDEA Maven项目groupId cn.itcastartifactId hbase_op6.2.2 导入pom依赖 <repositories><!-

2021-05-06 20:30:56

原创 Flink程序优化--黑马

Flink程序优化使用Flink Checkpoint进行容错处理checkpoint是Flink容错的核心机制。它可以定期地将各个Operator处理的数据进行快照存储( Snapshot )。如果Flink程序出现宕机,可以重新从这些快照中恢复数据。checkpoint coordinator(协调器)线程周期生成 barrier (栅栏),发送给每一个sourcesource将当前的状态进行snapshot(可以保存到HDFS)source向coordinator确认snapshot已经

2021-05-05 15:52:54 5

原创 HBase整合Phoenix --黑马

Phoenix什么是PhoenixPhoenix是一个基于HBase的开源SQL引擎,可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询你的HBase数据Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒Phoenix

2021-05-05 15:49:37

原创 IDEA 导入模块

2021-05-05 15:41:28 2

原创 flink异步IO --黑马

异步IO实现拉宽操作Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。异步IO操作的需求Flink在做流数据计算时,很多时候需要与外部系统进行交互(比如数据库、Redis、Hive、HBase等等存储系统)。 往往需要注意系统间通信延迟是否会拖慢整个Flink作业,影响整体吞吐量和实时性。场景:流计算系统中经常需要于外部系统进行交互,比如需要查询外部数据库以关联上用户的额外信息,通常,我们的实现方式是

2021-05-05 14:53:35 3

原创 scala中样例类和apply方法的使用

scala中apply方法的使用:1.在scala中经常可以看见var list = List(1,2,3)的这种用法即用类名来调用对象2.实际上它是调用了scala的伴生对象的apply方法返回了一个对象来实现的3.apply也支持方法的重载apply方法通常称为注入方法,在伴生对象中做一些初始化操作apply方法的参数列表不需要和构造器的参数列表统一unapply方法通常称为提取方法,使用unapply方法提取固定数量的参数来进行模式匹配unapply方法会返回一个序列(Option),

2021-05-05 13:25:53 1

原创 scala样例类与普通类区别

/** * 创建订单的样例类 */case class OrderDBEntity( @BeanProperty orderId:Long, //订单id @BeanProperty orderNo:String, //订单编号 @BeanProperty userId:Long) //用户id/** * 创建订单的伴生对象 */

2021-05-05 13:12:24 2

原创 日志解析--Logparsing

Apache HTTPD和NGINX访问日志解析器这是一个Logparsing框架,旨在简化Apache HTTPD和NGINX访问日志文件的解析。基本思想是,您应该能够拥有一个解析器,可以通过简单地告诉该行写入了哪些配置选项来构造该解析器。这些配置选项是访问日志行的架构。github地址:https://github.com/nielsbasjes/logparser需要IDEA先安装Lombok插件导入依赖<dependency> <groupId>nl.ba

2021-05-04 19:09:41 3

转载 scala中 object 和 class的区别

scala中 object 和 class的区别

2021-05-04 13:30:00 2

转载 kafka 连接工具Kafka Tool 2.0.7

Kafka Tool 2.0.7(最新)版本超详细使用指北

2021-05-04 11:04:14 4

原创 离线--千亿级数仓项目-黑马

大数据数仓项目简介业务流程本次数仓业务流程主要分为两类,一类是用户下单、提交订单、支付、退款这一条线,另一类是我们收集用户的页面行为数据:用户搜索商品、添加购物车 、提交订单、支付订单 的日志数据,分析电商网站常见的PV,UV,GMV,GMV (Gross Merchandise Volume):主要是指网站的成交金额,而这里的成交金额包括:付款金额和未付款。千亿级数仓模仿阿里巴巴双十一的大屏显示功能实现的互联网电商指标的离线分析,同时也模仿了阿里巴巴大数据平台上面数据仓库的设计思想和理念。

2021-05-04 09:25:48 15

原创 Canal-数据库同步工具-黑马

canal和sqoop的区别:Sqoop: 同步全量数据:能够实现对关系型数据的全量同步,但在很多业务场景下,由于数据量非常非常大,每天全量同步,对于Hadoop的压力较大,因此要慎用。Canal: 只同步更新的数据:实现基于CDC的数据同步方案,也就是捕获数据源中更新的数据,从而获得增量数据的更新。Canal介绍简介基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger(触发器

2021-05-03 19:15:12 9

原创 实时--千亿级数仓项目-黑马

state(状态):可以看成一个中间结果存储系统。将source -> map -> faile->rdurce ->…-> sink 每个算子的计算成功结果存储起来,方便系统宕机重启后直接中状态存储中拿出计算结果继续计算,不必再重新计算。1. 使用到的技术Canal客户端采集binlog消息 (mysql->kafka/hdfs)理解google ProtoBuf序列化方式 (提高网络传输效率)2.实时计算应用场景及技术选型实时计算在公司的用处公司内已

2021-05-03 17:06:36 18 1

转载 Hive和HBase的区别

一篇文章让你了解Hive和HBase的区别

2021-05-03 16:43:05 2

原创 安全认证--Kerberos

功介绍:Kerberos这一名词来源于希腊神话“三个头的狗——地狱之门守护者”,后来沿用作为安全认证的概念,使用Kerberos的系统在设计上采用“客户端/服务器”结构与AES等加密技术,并且能够进行相互认证(即客户端和服务器端均可对对方进行身份认证)。可以用于防止窃听、防止replay攻击、保护数据完整性等场合,是一种应用对称密钥体制进行密钥管理的系统。Kerberos的原理架构如图各模块的说明Application Client应用客户端,通常是需要提交任务(或者作业)的应用程序。Appl

2021-04-28 10:57:52 6

原创 HBase-尚硅谷

第 1 章 HBase 简介1.2.1 HBase 逻辑结构类型Mysql,做高表的水平切分:Region;做宽表的垂直切分store不需要指定列的类型,全部是字节码形式存贮。1.2.2 HBase 物理存储结构1.2.3 数据模型1.3 HBase 基本架构第 2 章 HBase 快速入门第 3 章 HBase 进阶...

2021-04-26 21:56:44 12

原创 MapReduce-hadoop-尚硅谷

第1章 MapReduce概述1.3 MapReduce核心思想1.4 MapReduce进程1.6 常用数据序列化类型1.7 MapReduce编程规范用户编写的程序分成三个部分:Mapper、Reducer和Driver。

2021-04-25 17:00:10 19

原创 Azkaban-工作流任务调度器-黑马

Azkabanazkaban是由领英退出的一款开源免费的工作流调度器软件特点功能强大 可以调度几乎所有软件的执行(command)配置简单 job配置文件提供了web页面使用java语言开发 源码清晰可见 可以进行二次开发架构web服务器 :对外提供web服务 用户在页面上进行项目的相关管理executor服务器:负责具体的工作流的调度提交。数据库:用于保存工作流相关信息(比如:mysql)部署模式单节点模式:web、executor在同一个进程 适用于测

2021-04-24 17:22:04 10

原创 数仓Hive-尚硅谷

第 1 章 Hive 基本概念Hive及数据仓库,存储使用HDFS,计算引擎(Dirve)可以是MR、Spark、Flinkhive应用于离线数据分析,一次写入多次读取,一般不涉及改和删数据1.1 什么是 HiveHive可将写好的HQL语句转换成整MR执行用Hive能解决的问题用MR一定能解决, 用MR能解决的问题,用Hive不一定能解决Hive没有集群概念,因为Hive的角色是客户端,Hdfs和MR的客户。可以部署多台但是都是独立的。Hive本质就是Hadoop的一个客户端,通过客户端

2021-04-24 11:41:18 11

原创 YARN

大数据技术生态体系推荐系统框架图YARN架构概述创建用户

2021-04-22 21:59:46 9

转载 kafka log.dirs配置多个数据目录

kafka运行后添加多个数据目录当然直接停掉kafka然后移动部分partition数据文件夹到新目录做软链也可行,只是当删除该topic的时候也只会删除链接文件

2021-04-22 17:57:52 16

原创 spark-java+scala 乐字节教育 案例

1.统计PV&UVpv某个网页24小时被点击的次数uv每个网页被不同用户点击的次数数据以制表符隔开"\t"146.1.30.98 河南 2017-10-10 1512012307078 5263761960810313758 www.jd.com Regist146.1.30.98 河南 2017-10-10 1512012307079 5263761960810313758 www.taobao.com Login146.1.30.98 河南 2017-10-10 15120123

2021-04-20 21:48:23 12

转载 Jstack线程状态BLOCKED/TIMED_WAITING/WAITING

Jstack线程状态BLOCKED/TIMED_WAITING/WAITING解释

2021-04-16 10:46:16 8

原创 DEA scala 自动生成变量类型

自动填写变量类型

2021-04-13 21:22:46 9

原创 spark-java+scala 乐字节教育 框架+算子

spark简介

2021-04-13 09:31:08 24

转载 SparkStreaming消费Kafka项目实战(JAVA版) 包含优化策略

SparkStreaming消费Kafka项目实战(JAVA版)

2021-04-12 16:27:38 12

转载 spark map和mapPartitions的区别

spark map和mapPartitions的区别

2021-04-12 16:26:21 6

原创 CheckpointWriter: Could not write checkpoint for time 文件写磁盘失败

spark程序对hadoop环境的依赖,导致checkpoint失败问题的解决问题解决方法:在spark程序开始执行的时候,设置hadoop.home.dir程序环境变量,也就是添加如下语句: System.setProperty("hadoop.home.dir", "D:\\hadoop-2.7.1");链接:https://pan.baidu.com/s/1dHYcnf-1Pe2BJRjhff6nPA提取码:dyfo问题原因:虽然checkpoint到本地目录,但是在spark的底层调用

2021-04-12 15:56:04 6

原创 Scala 代码中“$“作用

Scala 代码中$ 符具有在String 中直接拼接 字符串 和数字 等类型 。简化了字符串拼接。object Test1 {def main(args:Array[String]):Unit= { name="Tom" age =36 //System.currentTimeMillis()是一个方法需要{} println(s"${System.currentTimeMillis()} $name ’s age is$age") }}...

2021-04-11 17:56:47 4

原创 SparkStreaming 尚硅谷

第1章 SparkStreaming 概述1.1 Spark Streaming 是什么1.2 Spark Streaming 的特点➢ 易用➢ 容错➢ 易整合到 Spark 体系1.3 Spark Streaming 架构1.3.1 架构图➢ 整体架构图➢ SparkStreaming 架构图1.3.2 背压机制自动调整,接受的多处理的慢。接受的少处理的快的情况。第 2 章 Dstream 入门2.1 WordCount 案例实操➢ 需求:使用 netcat 工具

2021-04-10 18:09:06 21 1

原创 第6章 Spark 案例实操 尚硅谷

页面的统计不需要考虑用户,直接统计

2021-04-10 17:17:45 6

原创 Linux使用tcpdump命令抓包保存pcap文件wireshark分析

1.安装tcpdumpyum install tcpdump2.保存tcpdump抓包结果tcpdump -i eth0 -w dump.pcap-i #是指定要抓取的网卡-w #指定结果保存的位置3.在wireshark中打开下载安转wireshark:链接:https://pan.baidu.com/s/1dU-mYwGHS5BRLKbdjANzlA提取码:b3hp使用wireshark 直接打开dump.pcap文件即可...

2021-04-09 20:12:05 13

原创 Spark-尚硅谷5-3数据结构:累加器+广播变量

5.2 累加器105

2021-04-08 20:47:51 15

原创 Spark-尚硅谷5-2 数据结构:RDD 行动算子

5.1.4.5 RDD 行动算子 // TODO - 行动算子 // 所谓的行动算子,其实就是触发作业(Job)执行的方法 // 底层代码调用的是环境对象的runJob方法 // 底层代码中会创建ActiveJob,并提交执行。1) reduce2) collect实现wordcount的方法package com.atguigu.bigdata.spark.core.wcimport org.apache.spark.rdd.RDDimport org.

2021-04-05 18:30:29 19

原创 Spark-尚硅谷5- 1数据结构:RDD 转换算子

5.1.4.3 RDD 转换算子RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型Value 类型1)map 转换map操作只能是来一个计算一个,出去一个map: 转换映射功能,及把一个数据转换成一个新的数据, 把A变成B匿名函数:只关系逻辑不关心方法名,能省则省,参数名可以推断出来及不需要声明参数类型,逻辑只有一句话则不需要{},入参只一个可以不写()package com.atguigu.bigdata.spark.co

2021-04-01 22:03:42 30

转载 Kafka性能压测

Flink-Kafka性能压测全记录2.1 Producer相关参数   我们在producer涉及到性能的关键因素可能会存在如下几个:thread:我们测试时的单机线程数;bath-size:我们所处理的数据批次大小;ack:主从同步策略我们在生产消息时特别需要注意,是follower收到后返回还是只是leader收到后返回,这对于我们的吞吐量影响颇大;message-size:单条消息的大小,要在producer和broker中设置一个阈值,且它的大小范围对吞吐量也有影响;compress

2021-04-01 15:19:40 6

原创 正负交替 java

题目给一个包含正负整数的数组,要求对这个数组中的数进行重新排列,使得其正负交替出现。首先出现负数,然后是正数,然后是负数。有多余的数的一方,就放在末尾。如输入[1, 2, 3, -4]输出[-4, 1, 2, 3],输入[1,-3,2,-4,-5]输出[-3,1,-4,2,-5]要求使用O(1)的额外空间。问1 :如果不需要保持正数序列和负数序列各自原来的顺序,如何做?时间复杂度是多少?问2:如果需要保持正数序列和负数序列各自原来的顺序,如何做?时间复杂度是多少?解答对于不需要保

2021-03-31 22:52:36 14

原创 DataPipeline |《Apache Kafka实战》作者胡夕:Apache Kafka监控与调优 参考价值高

DataPipeline |《Apache Kafka实战》作者胡夕:Apache Kafka监控与调优

2021-03-29 14:14:37 6

原创 Spark-尚硅谷1-5

第1章 Spark 概述Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark and Hadoop1.3 Spark or Hadoop(MapReduce)Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘。MapReduce数据->map->reducer->磁盘->map->reducerSpark数据->map-&

2021-03-28 11:28:50 50

原创 HDFS-尚硅谷

第 1 章 HDFS 概述1.2 HDFS 优缺点1.3 HDFS 组成架构DataNode存储数据的副本没有主从区别,读数据时客户端根据获取的元数据就近原则读取数据1.4 HDFS 文件块大小(面试重点)第 4 章 HDFS 的数据流(面试重点)4.1 HDFS 写数据流程4.1.1 剖析文件写入4.1.2 网络拓扑-节点距离计算4.1.3 机架感知(副本存储节点选择)官方 ip 地址机架感知说明http://hadoop.apache

2021-03-27 23:10:16 8

按钮CButton,代码创建,设置按钮图标,改变按钮颜色,实时改变按钮外观.rar

按钮CButton,代码创建,设置按钮图标,改变按钮颜色,实时改变按钮外观,22MFC控件之纯代码创建CButton,23MFC类向导(class wizard)工具,24MFC控件之带图标的按钮,025MFC控件之美化按钮-改变按钮颜色,026MFC控件之美化按钮高级篇-实时改变按钮外观

2019-10-21

MFC控件之编辑框CEdit

028MFC控件之编辑框CEdit,MFC的编辑框及平时用的输入框,可以往里面输入文本或数字,编辑框对应的MFC类为CEdit,CEdit提供了窗口编辑框的功能

2019-10-21

027MFC控件之静态文本CStatic.rar

MFC控件之静态文本CStatic,使用visual studio2017,纯代码创建静态文本背景颜色,文本内容的改变的小例子。

2019-10-21

rocketmq.zip

SpringBoot整合rocketmq,实现rocketmq利用SpringBoot项目进项行数据的发送和接收。

2020-04-09

officedoc,matlab的office工具箱官网原版

officedoc,matlab操作office文件的工具箱 ,来自mathwork官网

2019-02-28

距离多普勒成像算法分析

距离多普勒(Range-Doppler,RD)算法是SAR成像处理中最直观,最基本的经典方法,目前在许多模式的SAR,尤其是正侧视SAR的成像处理中仍然广为使用,它可以理解为时域相关算法的演变。

2019-02-28

Java开发环境搭建JDK的下载和安装.pdf

Java开发环境搭建JDK的下载和安装,

2019-11-27

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除