6x6x6x-CSDN博客

原创 Spring MVC 配置详解

Spring MVCweb.xml对于新建一个springMVC项目来说，首先需要配置的就是web.xml在web.xml中，必须配的是：前端控制器：  <servlet> <servlet-name>springMVC</servlet-name> <servlet-class>org.springframework.web

2020-07-31 09:59:47 215

原创 Hbase安装-环境搭建

亲测，嘿嘿，搭成了！步骤：上传压缩包到3台服务器，解压，（或者先配好一台机器，然后copy过去）添加环境变量vi /etc/profileexport HBASE_HOME=/usr/local/hadoop/hbase-2.0.0export PATH=$HBASE_HOME/bin:$PATH 让配置生效 source /etc/profile检查防火墙状态，关...

2020-03-30 19:47:00 182

原创 Linux 修改MySQL5.7以上版本密码

小伙伴么，是不是遇到了Unknown column 'password' in 'field list'嘿嘿嘿为什么呢？人家把列名换啦！不叫password了新版本mysql采用authentication_string替代了password字段so：正确的应该是这样：update mysql.user set authentication_string=password('root...

2020-03-29 20:38:14 270

原创 Linux安装sql

1、下载mysql安装包在这里下载的是如下版本的mysqlhttps://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.26-linux-glibc2.12-x86_64.tar.gz下载完毕后上传到linux服务器2、解压[root@localhost sdb1]# tar -xzvf mysql-5.7.26-linux-glibc2....

2020-03-23 19:39:29 307

原创 Linux安装zookeeper

首先去到zookeeper的官网下载zookeeper的gz包上传到linux主机上，开始1.解压zookeeper压缩包到/opt/programs/zookeeper/ (自己指定)2.配置环境变量，方便使用命令 (注意要source哟)3.在zookeeper目录下建立data文件夹和logs文件夹（与zookeeper-3.4.12同一级）4. data目录下新建myid文...

2020-03-23 18:44:19 180

原创 Linux免密服务——SSH

过程很简单首先准备好你需要免密的虚拟机第一步，在每一台上面执行ssh-keygen -t rsa连按三下空格，就生成了这台虚拟机的公钥和私钥，具体位置在/root/.ssh文件夹下，这是个隐藏文件，可以使用 ll -a 查看第二步，在每台虚拟机上运行ssh-copy-id hadoop1/hadoop2/hadoop3 需要输入一次目的虚拟机的密码这里就是将生成的公钥拷贝给...

2020-03-22 17:30:57 156

原创 Spark的集群搭建

Spark的集群搭建1.前提条件1.1创建3台虚拟机，且配置好网络，建立好互信。1.2 Java1.8环境已经配置好1.3 Hadoop2.8.5几圈已经完成搭建1.4 Scala软件包和Spark软件包的下载https://www.scala-lang.org/download/http://spark.apache.org/downloads.html2.安装Scala2.1...

2020-03-11 20:37:03 170

原创 springcloud熔断器

springcloud熔断器（Hystrix）什么是熔断器？Hystrix（https://github.com/Netflix/Hystrix）是由Netflix开源的一个延迟和容错库，用于隔离访问远程系统、服务或者第三方库，防止级联失败，从而提升系统的可用性、容错性与局部应用的弹性，是一个实现了超市机制和断路器模式的工具类库。什么时候使用？在微服务架构中多层服务之间会相互调用，如果其中...

2020-03-09 20:20:45 172

原创 SpringCloud项目创建及详细介绍

SpringCloud远程方法调用RPC：dubbo和微服务，都是分布式的，分布式最少是两台电脑以上，然后，电脑之间相互协作需要完成通讯。dubbo是基于RPC的。RPC意思就是A服务器可以调用B服务器的服务，两者保持数据传输格式相同。http：网络传输协议，客户端和服务端采用Http协议。SpringCloud基于HTTP协议。浏览器访问网站。两种方式比较速度：RPC比HTTP更快，...

2020-03-07 19:45:47 503

原创 DataFrames创建

DataFrames创建1.SparkSQL解析SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在S...

2020-03-03 18:42:33 209

原创 springboot项目创建流程及连接数据库

springboot项目创建流程以idea为例 :新建一个maven项目在pom.xml文件里面添I加springboot父依赖，表明这是一个springboot项目（需添加version版本信息） <parent> <groupId>org.springframework.boot&lt...

2020-03-02 00:09:44 650

原创 Hive相关操作命令及知识点总结

Hive简介：1）声明编程；2）Hive不包括计算框架，把计算交给：MR、Spark、Tez；3）Hive SQL；4）与传统的关系型数据库（Mysql）有区别；5）数据仓库；6）场景：对历史数据做离线“分析”7）Hive 诟病：慢 MR慢如果想提速：设置计算引擎：SparkHive是：提供一个大数据的SQL的接口，不做计算。用来做数据分析。使用Mysql保存元数据...

2020-02-27 21:07:49 421

原创 Liunx上Hive安装

Hive1.hive的安装Hive安装准备：1）Hadoop；2）Mysql；1. 只需要安装在集群里面的一台节点上即可，此处选择hadoop1节点 2. 在Hadoop1上安装mariadb yum -y install mariadb-server mariadb 3. 开启服务并开机自启 systemctl start mariadb.service syst...

2020-02-27 21:06:02 115

原创 SpringMVC的工作原理及文件上传代码

SpimgMVC工作原理第1步：浏览器发送指定的请求都会交给DispatcherServlet,他会委托其他模块进行真正的业务和数据处理第2步：DispatcherServlet会查找到HandleMapping,根据浏览器的请求找到对应的Controller，并将请求交给目标Controller第3步：目标Controller处理完业务后，返回一个ModelAndView给Dispatch...

2020-02-26 21:37:08 280

原创 Storm编程模型

1.Storm编程模型元组（Tuple）元组是消息传递的基本单元，是一个命名的值列表，元组中的字段可以是任何类型的对象。Storm使用元组作为其数据模型，元组支持所有的基本类型、字符串和字节数组作为字段值，只要实现类型的序列化接口就可以使用该类型的对象。元组本来应该是一个key-value的Map，但是由于各个组件间传递的元组的字段名称已经事先定义好，所以只要按序把元组填入各个value...

2020-02-26 21:29:53 479

原创 Storm 分组策略和并发度

分组策略和并发度一、Stream Grouping所谓的分组策略就是在Spout与Bolt、Bolt与Bolt之间传递Tuple的方式。 stream grouping用来定义一个stream应该如何分配给Bolts上面的多个Executors（多线程、多并发）。Stream grouping的类型Storm里面有7种1）Shuffle Grouping: 随机分组，轮询，平均分配。随机...

2020-02-26 21:15:37 312

原创 Storm知识总结

1. 什么是Storm？较官方的解释 :storm是一种用于事件流处理的分布式计算框架，它是有BackType公司开发的一个项目，于2014年9月加入了Apahche孵化器计划并成为其旗下的顶级项目之一。Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm用于实时处理，就好比 Hadoop 用于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒...

2020-02-26 21:14:20 446

原创组合算法简介

1：首先介绍是属于哪一类算法组合算法即通过改变训练集来构造不同的学习器，然后再把它们集成起来。组合算法的核心思想是“三个臭皮匠，胜过诸葛亮”，直接建立一个高性能的分类器是很困难的，但是，如果能找到一系列性能较差的的弱分类器，并把它们集成起来的话，也许就能得到更好的分类器。本文介绍装袋法（Bagging）和提升算法（Boosting）2：介绍是否是有监督学习装袋，提升算法都是分类算法，是有监...

2020-02-26 20:15:07 1631

原创 K-均值聚类(K-Means)算法

K-均值聚类(K-Means)算法在数据挖掘中，聚类是一个很重要的概念。传统的聚类分析计算方法主要有如下几种：划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法等。其中K-Means算法是划分方法中的一个,比较简单且经典的算法。1. 什么是聚类：“类”指的是具有相似性的集合，聚类是指将数据集划分为若干类，使得各个类之内的数据最为相似，而各个类之间的数据相似度差别尽可能的大。聚...

2020-02-26 20:02:45 466

原创 HBase知识回顾补充

HBase知识回顾补充1.什么是行存储，列存储？请参考 : 传送门2.什么是LSM存储结构？LSM Tree(Log Structured Merge Trees)数据组织方式被应用于多种数据库，如LevelDB、HBase等。LSM tree存储实现思路：\1. 当有写操作(或update操作)时，写入位于内存的buffer，内存中通过某种数据结构(如skiplist)保持key有...

2020-02-26 19:51:12 209

原创 Hbase知识总结

HBASE的出现在大数据环境下，mysql无法满足海量的数据的存储。所以HDFS，出现了，但是HDFS无法解决结构化的数据的处理方案，HDFS虽然能存，但是上述的结构，HDFS是处理不了的。所以：HBase出现了另外，HBase的原型是Google的BigTable论文。HBase是一个/*高可靠性、高性能、面向列、可伸缩的分布式存储系统*/，利用HBASE技术可在廉价PC Server上搭...

2020-02-26 19:46:10 212

原创多项式回归

多项式回归什么是多项式回归？多项式回归是一种回归算法(多项式回归是基于线性回归的扩展，多项式回归是用于解决非线性的回归问题).对于这样的数据，虽然我们可以使用线性回归来拟合这些数据，但是这些数据更像是一条二次曲线,相应的方程是y=ax2+bx+cy = ax^2+ bx + cy=ax2+bx+c这是式子虽然可以理解为二次方程，但是我们呢可以从另外一个角度来理解这个式子：如果...

2020-02-26 19:32:29 1181

原创支持向量机

支持向量机首先，支持向量机不是一种机器，而是一种机器学习算法。1、SVM - Support Vector Machine ，俗称支持向量机，是一种 supervised learning （监督学习）算法，属于 classification （分类）的范畴。2、在数据挖掘的应用中，与 unsupervised learning （无监督学习）的 Clustering（聚类）相对应和区别...

2020-02-25 13:24:43 353

原创逻辑回归(分类算法)

逻辑回归(分类算法)什么是逻辑回归在前面讲述的回归模型中，处理的因变量都是数值型区间变量，建立的模型描述是因变量的期望与自变量之间的线性关系。比如常见的线性回归模型：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fiMtyMlz-1582608209856)(E:\Typora图片\线性)] 而在采用回归模型分析实际问题中，所研究的变量往往不全是区间变...

2020-02-25 13:23:39 909

原创线性回归分析

线性回归线性回归：线性回归时利用数理统计中的回归分析，来确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法。分类:一元线性回归分析只包括一个自变量和一个因变量，且两者的关系可用一直直线近似表示，这种回归分析称为一元线性回归分析。多元线性回归分析回归分析中包括两个或两个以上的自变量，且因变量与自变量之间是线性近似关系，则称为多元线性回归分析。特点：用于解决...

2020-02-24 19:34:53 1708

原创 knn算法详解（附练习代码）

KNN算法KNN算法是一个用于对数据样本进行分类预测的算法KNN算法就是根据样本之间的距离，来对新的样本来进行分类计算过程：将新的样本点，与历史样本点中的每一个样本点进行距离的计算取前k个距离最近的样本点的分类结果取分类结果频次最好的二分类项作为新样本的分类。网络搜索：手动指定不同参数的检索范围，通过网络搜索来寻找最优的超参数或者模型参数K就表示要取离新样本最近的K个样本进行分类决...

2020-02-24 19:29:09 1505 2

原创 ML基础-爬虫笔记

Python十大装逼语法https://blog.csdn.net/xufive/article/details/1028569211. for...else...语句2. * 列表参数 ** 键值对参数3. x = "y小于0" if y<0 else "y不小于0" 三元表达式4. with...as... 例如 with open("test.txt","w",enc...

2020-02-21 00:55:07 503

原创超详细SQL事务——基于锁的理解

1.原子性原子性是指事务是一个不可分割的整体，事务里面的操作要么全部成功，要么全部失败。2.一致性事务一致性的概念是：事务必须使数据库从一个一致性状态变换到另外一个一致性状态。以转账为例子，A向B转账，假设转账之前这两个用户的钱加起来总共是2000，那么A向B转账之后，不管这两个账户怎么转，A用户的钱和B用户的钱加起来的总额还是2000，这个就是事务的一致性。3.隔离性事务的隔离性是多个...

2019-12-25 19:44:10 147

原创 JAVA高级应用—— AOP(动态代理)

什么是AOP？简单理解：方法增强。AOP可以增强方法的功能，而不需要修改原业务代码。深入理解从编程语言的角度：处理粒度不同AOP是对OOP的扩展，OOP（即面向对象编程）能处理的最大粒度是对象，对OOP而言，当需要增强方法的功能时，必须修改类的定义。而AOP能处理的粒度可以深入到对象内部，可以是方法或者字段（Spring暂不支持字段增强），所以AOP可以使我们不用重新定义类，而增强原方法...

2019-12-25 11:30:37 257

原创通过java反射连接数据库

首先新建一个资源文件：jdbc.propertiesjdbc.Url =jdbc:mysql://localhost:3306/testjdbc.username = rootjdbc.password = rootjdbc.driverClass=com.mysql.jdbc.Driver主要代码：package day01.Annotation.DataSourceJdbc;...

2019-12-25 11:14:36 427

原创 Java 反射

1.反射有什么作用？1.没有通过new关键字直接创建对象；2.根据类型元数据（包括类型的所有描述信息，如类名称、属性名称和属性类型、方法等），来间接地创建类对象，或调用类的方法；3.可以动态地操作类；2 通过构造方法的反射package day01.Reflex.Constructor;import day01.helloWord.Model.User;import java.lan...

2019-12-25 11:06:44 109

原创 MapReduce知识总结

一、mapreduce的思想MapReduce擅长处理大数据，它为什么具有这种能力呢？这可由MapReduce的设计思想发觉。MapReduce的思想就是“分而治之”。（1）Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义：一是数据或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会分配到存放着所需数据的节点上进行计算；三是这些小任务可...

2019-12-16 20:55:40 821

原创 Yarn知识总结

一、yarn的核心RM（resource manager）的职责：1.除了客户端的请求，接受JobSubmitter提交的作业（按照作业的上下文（Context））信息run.sh提交的参数，以及从NM（nodemanager）收集来的状态信息），启动调度过程，分配一个container作为APP master2.RM作为中心服务，拥有系统中所有应用的资源分配决定权，其工作是调度、启动每一个...

2019-12-16 20:29:57 352

转载 HDFS知识总结

HDFS的核心组件1.NameNode（整个集群的核心，NameNode本地磁盘中管理着文件系统的镜像文件及编辑日志，在内存中管理着文件系统元数据信息（主要是BlockMap与NameSpace）namenode之中的核心：核心1：文件系统镜像文件（FsImage）磁盘中存放着的文件元数据信息，可以看做持久化后的HDFS目录树。{元数据信息[FileName、副本数、副本所在位置…] ...

2019-12-16 19:51:11 102

转载 hadoop知识总结

什么是hadoop1.Hadoop：适合大数据的分布式存储和计算平台2.Hadoop不是指具体一个框架或者组件，它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。Hadoop1.x中包括两个核心组件：MapReduce和Hadoop Distributed File System(...

2019-12-16 18:57:43 181

x6x6x6x的博客