自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 intellij idea 插件安装、卸载

卸载:File – Settings – Plugins,快捷键 ctrl + alt + s 唤起 Settings 框取消勾选为不生效,点击后边Uninstall为为卸载插件安装:File – Settings – Plugins,快捷键 ctrl + alt + s 唤起 Settings 框框中的功能为在线下载插件和本地引入插件...

2019-10-15 09:34:09 1015

转载 git rebase 找回消失的代码(commit)

原文连接:https://blog.csdn.net/JJJJuneT/article/details/81034607首先说说遇到的具体情况,今天在做完一个分支后,本想将该分支rebase 到master后push到远程库。 但是rebase的过程中有冲突,在没有解决冲突的情况下,我不小心进行了git rebase --skip的命令,导致我的提交(commit)和所写代码全部不见了!!一时心...

2019-09-27 10:06:04 2008 1

原创 Git push 时如何避免出现 "Merge branch 'master' of ..."

为了去除自动生成的 log 信息,有以下几种解决方案:1.如果你使用的是 Git Bash,直接使用 git pull --rebase。如果拉取不产生冲突,会直接 rebase,不会产生分支合并操作,如果有冲突则需要手动 fix 后,自行合并。人话:cmd中执行git pull --rebase,然后commit或者revert,然后pull,rebase,结束2.如果使用的是 GUI,例...

2019-09-24 09:45:43 2201

原创 MySql计算两个日期的时间差函数及获得前/后几天/月的函数

TIMESTAMPDIFF(interval,datetime_expr1,datetime_expr2)说明:返回日期或日期时间表达式datetime_expr1 和datetime_expr2the 之间的整数差。其结果的单位由interval 参数给出。interval 的法定值同TIMESTAMPADD()函数说明中所列出的相同。SELECT TIMESTAMPDIFF(MONTH...

2019-09-23 14:18:34 612 1

转载 用navicat导入.sql文件

转文链接:https://blog.csdn.net/qq_33699659/articl...

2019-09-10 09:11:22 139

原创 Tomcat控制台中文乱码问题解决

修改Tomcat的根目录下conf子目录下的logging.properties用encoding = GBK替代encoding = UTF-8即可

2019-09-06 09:49:24 92

转载 SQL2008R2数据库安装教程

一、前提:先安装IIS(Internet信息服务)和.NET(安装IIS时一同安装)1、win7安装IIS:开始-控制面板-程序-打开或关闭Windows功能-勾选Internet information services可承载的web核心-Internet信息服务逐项点开,最末级全部打勾,效果如图:然后点击确定,开始安装,等待结束即可。2、2008系统(我这里使用的是2008R2企业版)安装II...

2019-09-05 16:42:21 1416

原创 SQL Server数据库和MySQL数据库有什么区别?

SQL Server数据库和MySQL数据库有什么区别呢?详细很多初入IT行业的朋友对于SQL Server数据库和MySQL数据库经常搞混,认为这两种数据库是同一种,其实不然,今天我们来分析一下这两种数据库的不同之处:SQL Server数据库和MySQL数据库有什么区别    1,优点分析:MYSQL短小精悍,容易上手,操作简单,免费供用的。相对其它数据库有特色又...

2019-09-05 15:29:37 358

转载 Mysql常见join

mysql常见7种join CREATE TABLE `t_dept` (  `id` INT(11) NOT NULL AUTO_INCREMENT,  `deptName` VARCHAR(30) DEFAULT NULL,  `address` ...

2019-08-29 14:40:10 182

原创 MySQL重要知识点/面试题总结连接

https://blog.csdn.net/qq_34337272/article/details/94201189

2019-08-27 00:02:40 96

原创 spring boot框架解读

简介Spring Boot是一个简化Spring开发的框架。用来监护spring应用开发,约定大于配置,去繁就简,just run 就能创建一个独立的,产品级的应用。我们在使用Spring Boot时只需要配置相应的Spring Boot就可以用所有的Spring组件,简单的说,spring boot就是整合了很多优秀的框架,不用我们自己手动的去写一堆xml配置然后进行配置。从本质上来说,Sp...

2019-08-22 00:04:46 332

转载 基于大数据的个性化推荐系统

随着互联网时代的发展和大数据时代的到来,人们逐渐从信息匮乏的时代走入了信息过载的时代。为了让用户从海量信息中高效地获取自己所需的信息,推荐系统应运而生。推荐系统的主要任务就是联系用户和信息,它一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。基于大数据的推荐系统通过分析用户的历史记录了解用户的喜好,从而主动为用户推荐其...

2019-08-19 11:15:28 1861

转载 Hive开发要知道数据仓库的四个层次设计

        数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。1.数据仓库的四个操作      &nbs...

2019-08-16 10:45:59 612

转载 项目中权限控制系统的设计

                                            &...

2019-08-15 20:26:23 354

转载 kafka如何彻底删除topic及数据

前言:删除kafka topic及其数据,严格来说并不是很难的操作。但是,往往给ka...

2019-08-14 10:02:39 165

原创 Spark Streaming使用window函数与reduceByKeyAndWindow实现一定时间段内读取Kafka中的数据累加;reduceByKeyAndWindow函数的两种使用方式

使用window函数实现时间段内数据累加import kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.kafka.KafkaUtilsimport...

2019-08-11 23:22:24 244

原创 Spark Streaming中的检查点 Checkpoint及如何使用检查点存储/恢复处理结果

检查点 Checkpoint功能1.保存 每批中 state信息,累加加销售营业额2.保存 没冲从Kafka topic 中读取数据的offset3.保存DStream的来源和DStream处理函数和输出函数什么时候需要使用Checkpoint有状态转换的用法 - 如果在应用程序中使用了updateStateByKey或reduceByKeyAndWindow(with inverse ...

2019-08-11 23:19:23 1151

原创 SparkStreaming从Kafka中读取数据,设置检查点,处理数据后,并将结果存到Redis中,并实现执行优化

实现思路1.第一步获取StreamingContext对象,因为要使用检查点恢复数据,所以不能使用new StreamingContext的方法获取对象,要使用StreamingContext.getOrCreate建立对象2.创建StreamingContext对象,使用了贷出模式 ——贷出函数的方式来创建3.从Kafka的生产者端读取数据进行分析4.读取数据的方式采用Dire...

2019-08-11 23:05:14 1109

原创 Spark Streaming中读取数据的两种方式:基于Receiver的方法,基于Direct方法

基于Receiver的方法此方法使用Receiver接收数据。 Receiver是使用Kafka高级消费者API实现的。 与所有接收器一样,从Kafka通过Receiver接收的数据存储在Spark执行器中,然后由Spark Streaming启动的作业处理数据。但是,在默认配置下,此方法可能会在失败时丢失数据(请参阅接收器可靠性。为确保零数据丢失,您必须在Spark Streaming中另外...

2019-08-11 22:56:50 422

原创 Spark Streaming工作步骤详解

producer生产者产生数据Spark Streaming的Driver让一个Executor运行一个Task接收器每隔一段时间主动向生产者拿数据根据时间间隔:批处理时间间隔将DStream分割为多分RDD数据集合根据blockInterval:每个Block时间间隔将每个RDD分割为不同的块Block将块Block 的分割返回给DriverDriver运行job分析数据...

2019-08-10 22:38:22 411

原创 Spark Streaming:StreamingContext详解

StreamingContext详解(一)有两种创建StreamingContext的方式:val conf = new SparkConf().setAppName(appName).setMaster(master);val ssc = new StreamingContext(conf, Seconds(1));StreamingContext,还可以使用已有的SparkContext...

2019-08-10 20:39:37 337

原创 Spark MLlib机器学习开发模块

贷出设计模式(2类函数)贷出函数资源管理(创建SparkSession实例对象、关闭SparkSession对象)用户函数真正业务逻辑实现的地方实现的思路整理

2019-08-09 22:26:30 126

原创 SparkSession写入本地的时候报空指针可能原因之一(困扰很久)

可能原因之一:Hadoop的lib没有在windows下配置环境变量解决:配就完事了

2019-08-08 23:06:03 949

原创 ETL to HBASE Spark 流程总结

前言:基于spark框架读取HDFS日志文件数据,进行ETL操作,最终将数据插入到HBase表中采集数据有很多 事件类型,不同的事件类型字段类型不一样HBase表的设计每天一张表,每次分析的数据为一条的数据,rowkey设计rowkey设计满足:唯一性、热点性、前缀匹配例:a)服务器的时间b)用户ID + 会员ID+ 事件名称 ->CRC32处理,得到一个Long数字E...

2019-08-06 22:28:56 418

原创 ETL日志数据到HBASE表中,程序代码优化点

1.创建表的时候设置表的数据压缩创建预分区设置读取表中的数据不缓存2.spark程序的优化.filter(tuple =>eventTypeList.contains(EventEnum.valueOfAlias(tuple._1)))eventTypeList是Driver里面,filter是在Executor里面task运行如果是一个数据库对应一个分区,一个分区对应一个Ta...

2019-08-06 20:32:15 216

转载 各种SQL查询技巧汇总

基本常用查询select select * from student;all 查询所有 select all sex from student;distinct 过滤重复 select distinct sex from student;count 统计 select count(*) from student; select count(sex) from student; ...

2019-08-05 14:35:13 1305

原创 spark学习三

sparkStandalone集群资源管理和任务调度的框架(类似mapreduce)主节点:Master从节点:Workerspark Application运行的过程spark程序包含2部分(Driver和Executor都是JVM进程)Driver program:程序Main,创建sparkContext对象Executor s:相当于线程池(有很多线程,每个线程可以运行一个T...

2019-08-03 23:11:15 129

原创 spark学习二

基于spark学习一的补充spark是什么Hadoop的MapReduce框架类似,都是进行海量数据的处理,并行计算核心RDD数据存储在内存中,分区存储(partition)RDD之间是有依赖的宽依赖:产生shuffle,数据会存储在磁盘中窄依赖:不会产生shuffle这里所讲的shuffle和我们的MapReduce的shuffle过程,前面的Task数据将会被打乱,在分发给下一...

2019-08-02 20:52:31 89

原创 spark学习一

spark框架是如何处理数据的并行计算的思想将要分析的数据放到集合中去,然后调用集合的高阶函数处理数据spark是什么Apache Spark™ is a unified analytics engine for large-scale data processing.翻译:统一分析引擎为海量数据处理注: 统一:什么样的数据都能处理分析,什么类型的数据都可以处理,实时,离线,流式都...

2019-08-01 21:23:55 97

原创 Hbase在HDFS上的目录树

众所周知,HBase 是天生就是架设在 HDFS 上,在这个分布式文件系统中,HBase 是怎么去构建自己的目录树的呢?这里只介绍系统级别的目录树。一、0.94-cdh4.2.1版本系统级别的一级目录如下,用户自定义的均在这个/hbase 下的一级子目录下/hbase/-ROOT-/hbase/.META./hbase/.archive/hbase/.corrupt/hbase/....

2019-07-30 22:45:32 96

原创 HBase简介

一.HBase简介1.1起源HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。1.2HBase的角色特点:a)nosql列存储数据库b)HBASE存储数据的本质,可以理解为键值对存储——key:rowkey +CF(列族) +column +timstamp(时间戳)value:值是...

2019-07-29 21:31:20 103

转载 杂谈:我为什么开始写博客,我又不是什么大犇

杂谈:我为什么开始写博客,我又不是什么大犇?我写博客只是自己学习总结的一种方式首先我很多遇见的问题都是在很多博客中找到解决方案的,我想我在学习路上积累的东西也可以做个总结,我写的博客很多就是自己的学习总结,方便以后自己查阅。刚开始并没有给别人看的意思,写的很随意,自己看得懂就行。但渐渐的发现我写的东西有人评论了,访问量多了一点,我就觉得还是有人认真看的,我还是认真点吧,然后就开始用md写了。...

2019-07-27 19:06:32 105

原创 什么是数据倾斜?如何解决数据倾斜?(hadoop)

导读相信很多接触MapReduce的朋友对’数据倾斜’这四个字并不陌生,那么究竟什么是数据倾斜?又该怎样解决这种该死的情况呢?何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字段可能的数据...

2019-07-27 09:04:50 332 2

原创 Scala里面如何使用break和continue

Scala里面使用函数式break和contine的功能,而不是一个关键字。1.break例子breakable( for(i<-0 until 10) { println(i) if(i==5){ break() } } ) // 0,1,2,3,4,52.contine例子for(i<-0 unti...

2019-07-26 21:11:18 96

原创 scala的简单使用

变量的定义解释:定义变量int和string首字母必须大写val定义不可变对象(scala一切皆对象)var定义可变对象下划线为默认值懒汉定义解释:懒汉定义变量(执行的时候才运行)自动判断值类型解释:根据变量的值,自动的去推断数据类型函数解释:函数的定义函数的调用表达式中最后一行(图中x和y)表示返回值选择结构循环结构解释:range包头不包尾...

2019-07-26 21:07:17 163

原创 用idea创建一个scala项目

第一步:创建一个新的项目第二步:创建scala项目第三步:修改模块信息注:默认的src是Sources,需要把他点掉第四步:Hello Scala

2019-07-26 09:22:23 191

原创 zookeeper的安装(单机和伪分布式)

一、单机安装zookeeper1.上传解压2.修改名字模板名字(zoo_sample.cfg)不修改不生效修改成zoo.cfg之后里面修改dataDir3.启动bin/zkServer.sh start4.查看进程ps -ef |grep java5.运行客户端bin/zkCli.sh基本命令:ls /create /test1 helloZookeeperget /...

2019-07-25 19:01:33 98

原创 redis的五大数据类型,开发工具的操作

一、项目必备Jar包 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version> </dependency>...

2019-07-25 17:42:32 103

原创 namenode的HA(高可用)方案

上干货首先说一下namenode的三个功能1.管理datanode小弟namenode是通过心跳机制管理datanode小弟的(过一会儿跟我发心跳,告诉我你还活着),只要让datanode同时给standby发送心跳即可解决2.响应客户端设立一个代理(一个配置文件),cli请求的时候去找代理(Proxy),然后代理去找active,若是active宕机的话就去找standby3.管理...

2019-07-24 09:46:26 409

原创 vi与touch,vi涉及权限问题(文件归属谁)

问题来由:在做分布式安装zookeeper的时候,其实有配置myid的值如果直接用vi myid的话,在输入值1之后是无法保存退出的而用sudo vi myid就可以保存退出问题原因:如果用sudo vi myid的话,文件权限就归root,当前用户没有权限,在后面开启服务就有问题,直接用touch可以创建归属当前用户的文件用file xxx来看vi和touch创建的文件属性,此时显示em...

2019-07-23 21:44:56 597

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除