自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 命令行窗口查询mysql表数据中文乱码解决办法

https://blog.csdn.net/longzhoufeng/article/details/90287645

2020-06-03 13:40:52 244

原创 实习之sql常用语句

sql的功能 SELECT:从数据库中选取数据select * from table_name;##如果我们要去除结果表中的重复行,可用DISTINCT实现select distinct column_name from table_name;##确定范围(BETWEEN...AND)BETWEEN....AND...包括临界值NOT BETWEEN....AND... 不包括临界值查询表中的id在100到200之间的记录selec...

2020-06-01 17:19:55 411

原创 kafka中的server.properties配置文件的解析

在server.properties文件中配置:1、borker.id# The id of the broker. This must be set to a unique integer for each broker.broker.id=2 kafka集群是由多个节点组成的,而每一个节点称为一个broker,中文翻译是代理。每一个broker都有唯一的brokerId,...

2020-04-27 09:31:29 736

原创 Spark面试题

什么是spark?Apache spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。是一种基于内存计算的框架,是一种通用的大数据快速处理引擎。这一站式的计算框架,包含了Spark RDD(这也是Spark Core用于离线批处理)、Spark SQL(交互式查询)、Spark Streaming(实时流计算)、MLlib(机器学习)、GraphX(图计算)等重要处理框架。Spa...

2020-04-20 09:43:31 201

原创 Kafka面试问题

kafka架构:kafka介绍:官方:分布式发布/订阅的消息系统是一个分布式的、支持分区(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,最大特征就是:实时处理大量数据,以满足各种场景,比如:基于Hadoop的批处理系统,低延迟的实时系统,storm/Spark流式处理引擎,web/nginx日志,访问日志,消息服务等。k...

2020-04-20 08:11:15 323

原创 用Navicat Premium将数据库中的表结构导出(选择Excel)

以我的数据库中的一张表为例:假设导出这张表的表结构1.新建查询里输入以下代码:/**使用navicat导出mysql表结构字段信息*/ SELECTCOLUMN_NAME 列名,COLUMN_TYPE 数据类型,DATA_TYPE 字段类型,CHARACTER_MAXIMUM_LENGTH 长度,IS_NULLABLE 是否为空,-- COLUMN_DEFA...

2020-03-20 15:18:16 4565 2

原创 spring boot项目打成jar运行在Linux可能会出现的问题

1.问题描述:当出现以下[ERROR] Failed to execute goal org.apache.maven.plugins:maven-surefire-plugin:2.18.1:test (default-test) on project film: There are test failures.此类问题经多多次排查,可以确定是单元测试不通过,maven在构建项...

2020-03-14 12:05:03 262

原创 关于Spark的知识点

1.宽依赖与窄依赖针对不同的转换函数,RDD之间的依赖关系分为窄依赖(narrow dependency)和宽依赖(wide dependency,也成shuffle dependency)。窄依赖:窄依赖是指1个父RDD分区对应1个子RDD的分区,换句话说,一个父RDD的分区对应于一个子RDD的分区,或者多个父RDD的分区对应于一个子RDD的分区。所以窄依赖又可以分为两种情况:...

2019-12-30 19:46:33 113

原创 大数据框架之Kafka

1.kafka是什么Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者的流处理平台,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。2.基本架构图Fr...

2019-12-10 22:10:03 261

原创 二进制与十进制的互相转换

进制转二进制要用这种方法首先得会十进制转二级制的除以2取余的方法。  十进制转二进制 将余数和最后的1从下向上倒序写 就是结果  例如302  302 ➗2 = 151 余0  151➗ 2 = 75 余1  75 ➗2 = 37 余1  37➗ 2 = 18 余1  18 ➗2 = 9 余0  9➗ 2 = 4 余1  4 ➗2 = 2 余0  2 ➗2 = 1 余...

2019-12-10 18:19:31 406

原创 Centos7下实现免密登录

一.准备环境1) 用客户端工具(ssh client或者putty)连接到linux服务器。在root用户下输入命令vi /etc/hosts,用vi编辑hosts文件,如下:127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost local...

2019-12-08 10:07:50 721

原创 ssh免密码登陆设置时Authentication refused: bad ownership or modes错误解决方法

问题:设置ssh免密码登陆的时候,发现有一些机器设置不生效。有一些机器正常。跟踪:tail /var/log/secure -n 20错误日志如下:Dec 8 09:25:22 hdp-2 sshd[5678]: Authentication refused: bad ownership or modes for directory /root翻译:拒绝认证:目录/根目...

2019-12-08 10:07:26 3396 1

原创 公钥和私钥的原理

公钥和私钥是通过一种算法得到的一个密钥对(即一个公钥和一个私钥),将其中的一个向外界公开,称为公钥;另一个自己保留,称为私钥。通过这种算法得到的密钥对能保证在世界范围内是唯一的。使用这个密钥对的时候,如果用其中一个密钥加密一段数据,必须用另一个密钥解密。比如用公钥加密数据就必须用私钥解密,如果用私钥加密也必须用公钥解密,否则解密将不会成功。现在举例来说明:公钥和私钥就是俗称的不对称加密方式...

2019-12-08 09:47:16 3195

原创 Spark学习过程中积累的知识点

Spark使用scala语言编写的,scala是面向函数编程1.Spark的Collect是一个action算子,作用:以数组的形式返回数据集的所有元素2.Spark的RDD(弹性分布式数据集) 粗颗粒的:将转换规则和数据处理的逻辑进行了封装,实际上是不保存数据,他代表一个不可变、可分区、里面的元素可并行计算的集合。(会进行分区,为了去并行计算)3.Spark—算子(operate):...

2019-12-03 21:18:00 195

原创 Linux下使用nginx和ftp做图片服务器详解

一、搭建nginx安装make:yum -y install gcc automake autoconf libtool make1.1使用yum 安装gcc、pcre、zlib、openssl、make环境1.1.1 gccyum install gcc gcc-c++1.1.2 pcreyum install -y pcre pcre-dev...

2019-12-02 22:01:41 200

原创 Spark之groupByKey和reduceByKey的区别

【spark】 常用转换操作:reduceByKey和groupByKey1.reduceByKey(func)功能:使用func函数合并具有相同键的值用scala编写def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setAppName("Test3")...

2019-12-02 19:01:52 279

原创 Spark之RDD的创建

弹性分布式数据集(RDD)Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是可并行操作的元素的容错集合。创建RDD的方式有两种:1.并行化驱动程序中的现有集合2.引用外部存储系统(例如共享文件系统、HDFS、HBase、或Hadoop InputFormat的任何数据源)中的数据集1.并行集合有两种方法创建并行集合:parallelize、makeRDD用sc...

2019-11-29 22:14:35 361 1

原创 binlog

1.什么是binlog?binlog是一个二进制格式的文件,是MySQL最重要的日志了。用于记录用户对数据库更新的SQL语句信息,例如对数据库增、删、改都会被记录到binlog里,但是对库表等内容查询不会记录。默认情况下binlog日志是二进制格式的,不能使用查看文本工具的命令(比如:cat、vi 等)查看。而是使用mysqlbinlog解析查看二进制有两个最重要的使用场景...

2019-11-29 15:23:11 149

原创 spark之sortBy和sortByKey

在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说...

2019-11-27 19:03:26 1198

原创 spark之reduce和reduceByKey的区别

reduce和reduceByKey的区别1、reduce:把RDD中的每一个元素拿出来处理并形成一个新的RDD元素 (reduce是将元素一个一个的处理)2.reduceByKey:把RDD中的key相同的一组数据拿出来处理,形成一个新的RDD里面放的是元组reduce和reduceByKey是spark中使用地非常频繁的,在字数统计中,可以看到reduceByKey的经典使用。那么...

2019-11-27 18:38:06 1201

原创 spark之map和flatMap的区别

map和flatmap区别两者的区别主要在于action后得到的值map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回flatMap会先执行map的操作,再将所有对象合并成一个对象,返回值是一个序列(Sequence)例子:object Test2 { def main(args: Array[String]): Unit = { va...

2019-11-27 11:44:19 337

原创 scala的Option中的Some和None

大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是“无”,在Java,它是null。在java中,null是一个关键字,不是一个对象,所以对它调用任何方法都是非法的。但是这对语言设计者来说是一件令人疑惑的选择。为什么要在程序员希望返回一个对象的时候返回一个关键字呢?为了让所有东西都是对象的目标更加一致,也为了遵循函数式编程的习惯,Scala鼓励你在变量和函数返回值可能不会引用任何值的...

2019-11-26 23:26:55 3322

原创 java基础之单例模式

java中单例模式是一种常见的设计模式,这里主要介绍两种单例模式:懒汉模式、饿汉模式1.什么是单例模式?保证整个系统中一个类只有一个对象的实例,实现这种功能方式就叫单例模式(通俗的讲:一个类中只有一个实例,并提供一个全局访问点)2.为什么要使用单例模式?1.单例模式节省公共资源如:大家都要喝水,但是没必要每人家里都打一口井是吧,通常的做法是整个村里打一个井就够了,大家都从这...

2019-11-26 19:07:09 109

原创 SpringBoot项目打包运行在Linux上,无法访问jsp问题解决

如果在idea打包时出现以下的错误:解决方法:在pom.xml添加: <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-surefire-plugin</artifact...

2019-11-21 18:30:58 781

原创 ELK的安装配置(在hadoop集群上)

1.Elasticsearch安装配置1.下载资源:https://www.elastic.co/cn/downloads/elasticsearch2.上传到集群上,解压:tar -zxvf 压缩包3.如果之前一直是root用户操作,会报错,因为es默认不允许在root用户使用。所以创建一个用户,这里以在park为例(1)增加zpark用户 useradd zp...

2019-11-05 23:00:25 400

原创 ElasticSearch常用api(使用Kibana操作)

使用Kibana进行交互操作-------------常用操作------Create 增POST /索引/类型/ID{ //参数}PUT /索引/类型/ID{ //参数}POST search/article/1{ "title": "标题1", "tags" : "标签1", "content" : "内容1", "author"...

2019-11-05 15:53:11 1500

原创 Java基础之封装、继承、多态

封装#.将属性(成员变量)私有化private(只有类本身可以访问)<不带修饰符(同一个包可以访问)<protected(对子类和同一包公开)<public(对外公开)#.提供相应的set、get、toString 方法1.封装的特点对成员变量实行更准确的控制。 封装可以隐藏内部程序实现的细节。 良好的封装能够减少代码之间的耦合度。 外部成员无法修改已封...

2019-11-03 20:14:48 130

原创 Java基础之栈、堆、方法区

栈#栈描述的是方法执行的内存模式,每个方法被调用时都会创建一个栈帧(存储局部变量、操作数、方法出口等)#JVM每个线程都会创建一个栈,用于存放该线程执行方法的信息(实际参数、局部变量等)#栈是线程私有的,不能在线程之间实现共享#栈的存储特性:先进后出#栈是由系统自动分配,速度快,栈是一个连续的内存空间#方法的运行一定在栈中运行存放的是局部变量(注:形参也是局部变量的一种...

2019-11-02 21:55:25 85

原创 Java基础之String、StringBuffer和StringBuilde的区别

字符串在Java编译中广泛应用,在Java中字符串属于对象,Java提供了String类来创建和操作字符串一、String(常量)String的值是不可变的,每次对string的操作都会生成新的String对象,这样会降低效率,还会浪费有限的内存空间。对String操作时内存的变化的图:我们可以看到,初始String值为“hello”,然后在这个字符串后面加上新的字符串“wor...

2019-11-02 20:53:33 248

原创 lucene

倒排索引:lucene:是一套用于全文检索和搜寻的开源程序库,由Apache软件基金会提供和支持。Lucene提供了一个简单却强大的应用程序接口(API),能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开放源代码工具Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品(相当于他是制作搜索引擎产品的工具)Lucene、Solr、Elast...

2019-10-28 22:30:44 143 1

原创 java基础之基本数据类型

自从Java发布以来,基本数据类型就是Java语言的一部分,分别是:byte、short、int、long、char、float、double、boolean其中:整型:byte、short、int、long字符型:char浮点型:float、double布尔型:boolean注:Java中最小的计算单元为字节,1字节=8位 拓展:数据储存是以"字节"(byte)为...

2019-10-26 11:29:21 62

原创 Java基础1

1.getString和toString区别:toString()方法是指把对象转换成字符串。Java中任何的对象都可以调用toString方法getString()是指取得String类型数据库用的,比如在数据库取数据2.map集合、list集合、set集合区别map集合特点:(k-v)1.能够存储唯一的列的数据(唯一,不重复)2.能够存储可以重复的数据(可重复)3.值...

2019-10-24 22:17:38 1012

原创 大数据小项目之统计pv点击量v1

流程:1.将可以运行的项目打成jar包(点击左侧maven下Lifecycle的package),上传到Linux集群上(我上传到hdp-2),运行 Java -jarneiminda-0.0.1-SNAPSHOT.jar 。测试:运行 hdp-2:88862.启动nginx 启动nginx目的是为了产生日志,还有负载均衡和反向代理(这里没涉及到负载均衡)/us...

2019-10-22 19:55:45 655

原创 Hadoop之命令操作

在虚拟机上删除hdfs文件:删除hdfs下的文件: hadoop fs -rm /文件夹名删除hdfs下的文件夹:hadoop fs -rm -r 文件名查看根目录下的内容: hadoop fs -cat /文件名增加权限:chmod +x 文件名ps -ef|grep 文件名 :查看某个进程号复制文件: cp 文件名 文件名mv 既可以改文件名也可以移动文件(在同一台机器上可以)...

2019-10-17 19:58:05 506

原创 SpringBoot整合Kafka

案例:1.先在虚拟机上启动zookeeper、Kafka。并在Kafka目录下创建一个Topic(test)2.Idea进行项目构建(创建Springboot项目)为了更加体现实际开发需求,一般生产者都是在调用某些接口的服务处理完逻辑之后然后往kafka里面扔数据,然后有一个消费者不停的监控这个Topic,然后处理数据,所以这里把生产者作为一个接口,消费者放到kafka这个目录下。...

2019-10-16 21:28:58 113

原创 flume采集数据下沉到Kafka中,在临时保存到本地文件中,再将本地文件上传到HDFS

思路:在虚拟机上写一个脚本,为了制造假数据,通过flume下沉到Kafka。再通过Java代码从Kafka的Topic中获取数据临时保存到本地文件中,再将本地文件上传到HDFS上1.虚拟机启动 zookeeper、Kafka。2.在启动一个生产者、一个消费者。注:脚本文件:/root/log[root@hdp-1 log]# ./makelog.shwhile tru...

2019-10-16 16:28:39 438

原创 kafka和flume整合

flume是一个数据采集搬运工。配置数据源,可以源源不断将数据采集过来。flume不会持久性保存数据,但是会做一个临时性的缓存,最后还是需要sink将数据落地到外部的存储系统,如:Kafka、hdfs关于flumeflume三大组件:1.Source:数据源,完成对日志数据的收集,分成transtion和even发送到channel中。(收集信息)2.Channel:主要提供一个队...

2019-10-14 22:53:45 430

原创 当win10系统更新后,关于VMware问题:无法获得 VMCI 驱动程序的版本: 句柄无效。驱动程序“vmci.sys”的版本不正确......

当我们更新完win10系统后,在启动虚拟机时,会出现VMware版本过低,需要更新版本问题。亲测按照这个网址更新就可以:https://blog.csdn.net/Fly_1213/article/details/90897738当更新完虚拟机后还有一个问题:解决:1.根据配置文件路径找到对应的.vmx文件:2.用编辑器打开,找到vmci0.present = “TRU...

2019-10-14 21:59:32 2493

原创 在虚拟机上安装kafka及其测试

1.安装好jdk、zookeeper2.在官网上下载kafka,并在虚拟机解压kafka(apps路径下)tar -zxvfkafka_2.12-2.2.03.修改配置文件1.配置日志进入到/apps/kafka_2.12-2.2.0 目录创建日志目录;#cd /apps/kafka_2.11-1.1.0;#mkdir logs;2.修改kafka配置文件;...

2019-10-13 19:38:41 2904

原创 B/S和C/S结构

一、B/S结构:("浏览器/服务器"模式)B:Browser web浏览器S:Service 服务器服务器:构成:cpu、芯片组、内存、磁盘系统等B/S结构是随着互联网的发展,web出现后兴起的一种网络结构模式。这种模式统一了客户端,让核心的业务处理在服务端完成,只需安装浏览器,就可以通过web Service与数据库进行数据交互B/S架构分层:第...

2019-09-21 09:31:49 1496

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除