自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 收藏
  • 关注

原创 Java-spring

一:Spring 概述spring是最受欢迎的企业级java应用程序开发框架,开发人员使用 Spring 框架来创建性能好、易于测试、可重用的代码。spring框架的优点:健壮的servelt容器 包和类的管理方便 测试容易 封装强大,api使用简单 提供的事务接口依赖注入DI...

2020-06-17 09:19:45 128

原创 c++ Introduction to study -1 day

一:简介C++ 是一种静态类型的、编译式的、通用的、大小写敏感的、不规则的编程语言,支持过程化编程、面向对象编程和泛型编程。C++ 被认为是一种中级语言,它综合了高级语言和低级语言的特点。C++ 是由 Bjarne Stroustrup 于 1979 年在新泽西州美利山贝尔实验室开始设计开发的。C++ 进一步扩充和完善了 C 语言,最初命名为带类的C,后来在 1983 年更名为 C++...

2019-11-06 14:45:28 126

转载 运维必须掌握的27道Linux面试题

1.解释下什么是GPL,GNU,自由软件?GPL:(通用公共许可证):一种授权,任何人有权取得、修改、重新发布自由软件的权力。GNU:(革奴计划):目标是创建一套完全自由、开放的的操作系统。自由软件:是一种可以不受限制地自由使用、复制、研究、修改和分发的软件。主要许可证有GPL和BSD许可证两种。2.如何选择Linux操作系统版本?一般来讲,桌面用户首选Ubuntu;服务...

2019-06-14 17:23:44 197

转载 JAVA基础编程练习50题

本文对50道经典的java程序题进行详细解说,对于初学者可以跳过一些逻辑性太强的题目,比如第一题用到了方法的递归,初学者可能不理解,最好先看那些有if、for、while可以简单解决的程序题!但是,对于比较深入学习过的同学,还是希望可以一口气就看完,这是比较全面思维锻炼!【程序1】题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如...

2019-06-14 17:21:03 929

原创 Maven简单的学习分享

Maven教程概念Maven是一个项目管理工具,可以对java,scala和其他语言的用于构建和项目管理。Maven的标准目录,使用原则是约定由于配置的原则,请遵守这样的目录结构: 目录 目的 ${basedir} 存放pom.xml和所有的子目录 ${basedir}/src/main/jav...

2019-06-11 14:02:59 213

原创 Storm的本地开发和集群开发

1.创建一个Maven项目pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocat...

2019-01-27 17:14:53 404

原创 Storm的初识和安装以及使用

1.产生的背景对于大量的海量数据的批处理,传统上使用的hadoop、hive等,优点是吞吐量大、自动容错的特点,但是同时缺点也十分的明显,只适合一些离线的数据处理,对于一些实时数据处理并不擅长,由此产生的Storm、SparkStreaming、Fink等实时的计算系统。2.简介Apache Storm 是一个Twitter的开源分布式、实时、可扩展、容错的操作系统。Strom处理数据...

2019-01-26 11:48:53 430

原创 hadoop分布式集群搭建

hadoop分布式集群搭建:1. 集群规划:2.具体步骤:(1)上传安装包,并解压到相关目录:[hadoop@hadoop01 home]$ put c:/hadoop-2.6.5-centos-6.7.tar.gz[hadoop@hadoop01 home]$tar -zxvf hadoop-2.6.5-centos-6.7.tar.gz -C /home/hadoop/a...

2019-01-24 22:07:13 131 3

原创 hadoop集群搭建前的准备

2019-01-11 11:23:351. 修改主机名:[root@localhost home]# sudo vi /etc/sysconfig/network 修改主机名:2. 设置系统默认启动级别:[root@localhost home]#vi /etc/inittab改默认启动级别,3 是多用户模式,并且不启动图形界面3. 配置 hadoop 用户 sudoer ...

2019-01-24 22:06:14 218

原创 hadoop生态的大体介绍

 重点组件:HDFS:Hadoop 的分布式文件存储系统MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型Hive:基于 Hadoop 的类 SQL 数据仓库工具HBase:基于 Hadoop 的列式分布式 NoSQL 数据库ZooKeeper:分布式协调服务组件Mahout:基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库Ooz...

2019-01-24 22:04:55 188

原创 hadoop的HA

1. 为什么要搭建HA?  在hadoop2.x之前,在HDFS 集群中NameNode 存在单点故障 (SPOF:A Single Point of Failure)。对于只有一个 NameNode 的集群,如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级),那么整个集群将无法使用,必须等到 NameNode 重新启动,之后才能对外提供服务,这个方式在生成环境中是绝对不允许出...

2019-01-24 22:03:14 149

原创 ElasticSearch的介绍及安装

一、ElasticSearch的介绍1、简介(官网:https://www.elastic.co/)             ElasticSearch是一款基于Luncene的实时分布式搜索和分析引擎。采用java编写,目标是让全文搜索变得简单(应用倒排索引),还可以进行大规模的横向扩展,支持PB级的结构化和非结构化海量数据的处理。(支持json格式文件)2、ElasticSearc...

2019-01-23 18:13:00 247

原创 Maven的菜鸟教程

1.什么是maven?     maven是一个跨平台的项目管理工具。   作为Apache组织中的一个颇为成功的开源项目,Maven只要服务于Java平台的项目构建、依赖管理和项目信息管理。    Maven不涉及编码,但是涉及编码的方式(导入jar方式)2.项目的构建方式    编译————>运行单元——————>生成文档——————>打包和部署   ...

2019-01-21 16:47:22 3146 1

原创 MySQL的高级部分

1. MySQL的事务(1)存储引擎的介绍   介绍:当客户端发送一条SQL语句给服务器时,服务器端通过缓存、语法检查、校验通过之后,然后会通过调用底层的一些软件组织,去从数据库中查询数据,然后将查询到的结果集返回给客户端,而这些底层的软件组织就是存储引擎。   MySQL的存储引擎:     - MySQL的核心就是存储引擎,MySQL可以设置多种不同的存储引擎,不同的存储引擎在索引...

2019-01-21 10:50:32 155

原创 MySQL的进阶部分

1.MySQL的表的约束(1)数据完整性的介绍:  所谓的数据的完整性就是,数据的准确性和可靠性。可以通过添加完整性约束来提高数据的完整性:实体完整性:为每一个实体(记录)确定一个唯一标识。 实现方式:主键约束、唯一约束、主键自增 域完整性:表示字段是完整的 实现方式:字段的类型、非空约束、默认值 引用完整性:参照表和被参照表 实现方式:外键约束 自定义完整性:...

2019-01-20 18:27:40 117

原创 MySQL的查询操作

1. 基础的查询操作#简单查询select * from emp; //查询emp中所有的记录select empno, job,ename from emp; //查询emp表中的某些字段select ename as 名字 from emp; //使用字段别名去重 distinctselect distinct deotno from emp; //去除重复的行...

2019-01-20 16:40:36 191 3

原创 MySQL的基础分部

 MySQL的基本操作#进入数据库mysql -h localhost -uroot -p#展示所有的数据库show databases #进入某一个数据库use database_name#展示某个数据库中的所有表show tables#退出数据库exit&&quit#允许用户远程登录grant all on *.* to 用户名@'%'iden...

2019-01-20 14:13:56 108

原创 MySQL的介绍与安装

1. 数据库的介绍(1)数据库的相关概念:   数据:描述事物的符号,多表现与文本、图片、音频、视频。   数据库:按照一定的格式,存放数据的仓库。   数据库管理系统:如何科学的组织和存储数据,如何高效的获取和维护数据   数据库类型:Oracle、mysql、SQL server、DB2、foxpro、Access   数据库应用程序:将数据存储在数据库中,直接和用户交互的应用...

2019-01-20 09:04:00 168

原创 初识mySQL

1.mysql初识             A.mySQL是一个关系型的数据库管理系统。             B.mySQL采用关系模型D对数据采用分表的形式管理,对多张表存在的情况下,可以采用分 库的形式管理。             C.mySQL数据管理系统中可以的管理多个数据库,同时一个数据库可以管理多张表。2.mySQL的安装下载地址:www.mysql.com或...

2019-01-19 09:28:16 130

原创 Yarn的基础介绍以及job的提交流程

1.YARN的基础理论1)关于YARN的介绍:   YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。2)hadoop1.x中YARN的不足:   - JobTracker是集群的事务的集中处理,存在单点故障   - JobTracker需要完成得任务太多,既要维...

2019-01-18 13:36:58 481

原创 sqoop的常用命令

1. 基础命令列出MySQL中有那些数据库sqoop list-databases \ --connect jdbc:mysql://hadoop01:3306/ \--username hadoop \--password root \列出MySQL中的数据库有哪些表sqoop list-tables \ --connect jdbc:mysql://hadoop...

2019-01-18 13:35:12 164

原创 sqoop的介绍以及部署安装

1.sqoop的介绍(1)介绍:  Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。  导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、HBASE等数据存储系统。   导出数据:从hadoop的文件系统中导出数据到关系型数据库中。(2)工作机制  将导入导出的命令翻译成MapReduce程序来实现,并且M...

2019-01-18 13:33:59 197

原创 消息队列之kafka(整合flume)

补充:在flume的的lib中已经有了kafka的依赖包,所以直接使用flume的配置文件即可。这里举出kafka+flume的典型场景:(Kafka-----sink)source :netcatchannel:memorysink:kafka sinknetcat-kafka.conf#别名a1.sources=s1a1.channels=c1a1.sinks=k1...

2019-01-18 13:30:32 128

原创 消息队列之kafka(API)

1.模拟实现kafka的生产者消费者(原生API)解决相关依赖:<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka --><dependency> <groupId>org.apache.kafka</groupId> <artifactId&g...

2019-01-18 13:29:27 134

原创 消息队列之kafka(集群搭建)

1.kafka集群搭建  kafka安装包下载地址: 官网网址:http://kafka.apache.org/quickstart 中文官网:http://kafka.apachecn.org/quickstart.html 在 windows 平台,从官网下载:http://mirrors.hust.edu.cn/apache/kafka/1.1.0/ 在 centos 平台:wg...

2019-01-18 13:28:37 140

原创 消息队列之kafka(消费语义)

1. 消费语义的介绍   at last once:至少消费一次(对一条消息有可能多次消费,有可能会造成重复消费数据)     原因:Proudcer产生数据的时候,已经写入在broker中,但是由于broker的网络异常,没有返回ACK,这时Producer,认为数据没有写入成功,此时producer会再次写入,相当于一条数据,被写入了多次。   at most once:最多消费一次,...

2019-01-18 13:27:40 372

原创 消息队列之kafka(HA)

1. kafka的HA(1)zookeeper在kafka中的作用:   - Zookeeper帮助kafka集群运行:存储一些元数据,还会帮助kafka集群进行管理(选主)   - 存储关于消费者消费了哪些topic到那个进度的数据。 (2)kafka HA解决的问题:   存在的问题:kafka在0.8以前的版本中,并不提供high available机制,一旦一个或者...

2019-01-18 13:26:59 240

原创 消息队列之kafka(核心架构)

1. Kafka的经典架构 Kafka是LinkedIn 用于日志处理的分布式消息队列,同时支持离线和在线日志处理。 Kafka 对消息保存时根据 Topic 进行归类。 发送消息者就是Producer,消息的发布描述为Producer 消息接受者就是 Consumer,消息的订阅描述为 Consumer 每个 Kafka 实例称为 Broker,将中间的存储阵列称作 Broker(...

2019-01-18 11:18:36 277

原创 消息队列之kafka(基础介绍)

一、关于JMS1. JMS 的基础  JMS是Java提供的一套技术规范。即Java消息服务(Java message service)。应用程序接口。是一个Java平台中关于面向消息中间件的API。用于在两个应用程序之间或者分布式系统中发送消息,进行异步通信。Java消息服务是一个与具体平台无关的API。  用来异构系统集成通信,缓解系统瓶颈。 提高系统的伸缩性、增强系统用户体验。使得...

2019-01-18 11:17:08 128

原创 hdfs的四大机制和两大核心

四大机制:(1)心跳机制:  介绍: hdfs是主从架构,所有为了实时的得知dataNode是否存活,必须建立心跳机制,在整个hdfs运行过程中,dataNode会定时的向nameNode发送心跳报告已告知nameNode自己的状态。   心跳内容:     - 报告自己的存活状态,每次汇报之后都会更新维护的计数信息     - 向nameNode汇报自己的存储的block列表信息...

2019-01-17 20:44:09 353

原创 HDFS的shell和API操作

1. HDFS的shell操作hadoop version //查看版本hadoop fs -appendToFile src(Linux中的文件) dest(hdfs目录下的文件) //追加hadoop fs -cat file(hdfs目录下的文件) //查看文件内容Hadoop fs -tail file(hdfs目录下的文件) //...

2019-01-17 20:41:19 238

原创 HDFS的基本概念介绍

1. HDFS的设计思路?  hdfs是分布式的文件系统,用来在廉价的集群上做大数据量的存储。1.大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理2.每个小文件做冗余备份,并且分散存到不同的服务器,做到高可靠不丢失2. HDFS的架构?namenode:集群老大,掌管文件系统目录树,处理客户端读且请求SecondaryNamenode:持久化元数据,主要...

2019-01-17 20:32:25 185

原创 hbase的底层原理

1.hbase的底层逻辑架构(1)新旧版本的hbase的架构区别这是旧版本的hbase的架构图,一个regionserver中只有一个Hlog。这一张是新版本的图,每一个regionserver中可以有30个Hlog。老版本和新版本的变动:  - 0.96版本以前,一个regionserver只有一个HLog,并且管理元数据有.meta. -root-两个元数据表。  - 0.98...

2019-01-17 10:42:25 873

原创 hbase的典型场景

1. hbase整合Mapreduce  在离线任务场景中,MapReduce访问HBASE数据,加快分析速度和扩展分析能力。从hbase中读取数据(result)public class ReadHBaseDataMR { private static final String ZK_KEY = "hbase.zookeeper.quorum"; private sta...

2019-01-17 10:40:46 236

原创 hbase的过滤器查询

hbase的过滤器有很多:大致分为两大类:比较过滤器和专用过滤器,过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端;hbase 过滤器的比较运算符: LESS ----- < LESS_OR_EQUAL ----- <= EQUAL ----- = NOT_EQUAL ----- <> GREATER_OR_EQU...

2019-01-17 10:39:50 134

原创 hbase的基本操作

1. shell操作常见命令:[root@hadoop01 ~]# hbase shell #进入HBASE客户端hbase(main):001:0> help “dml” #获取一组命令的提示hbase(main):001:0> help "put" 获取一个单独命令的提示帮助hbase(main):001:0> exit #退出客户端...

2019-01-17 10:38:32 446

原创 hbase的集群搭建

1.集群搭建1. 前置要求:  - HBASE是用Java语言编写的,所以在安装HBASE时,必须安装jdk  - 安装HBASE是必须有hadoop平台  - HBASE和jdk的版本存在兼容性,一定注意jdk:hadoop:2. 集群规划:3. 具体搭建:① 上传安装包(hbase-1.2.6-bin.tar.gz)②解压:tar zxvf hbase-1.2.6...

2019-01-17 10:37:04 201

原创 hbase的基本介绍

1. hbase的简介:  HBASE是bigTable,(源代码是Java编写)的开源版本,是Apache Hadoop的数据库,是建立在hdfs之上,被设计用来提供高可靠性,高性能、列存储、可伸缩、多版本,的Nosql的分布式数据存储系统,实现对大型数据的实时,随机的读写请求。更是弥补了hive不能低延迟、以及行级别的增删改的缺点。   HBASE依赖于hdfs做底层的数据存储   H...

2019-01-17 10:35:36 578

原创 hive的执行流程

 1. 执行流程概述查看hive语句的执行流程:explain select ….from t_table …;查看hive语句的执行流程:explain select ….from t_table …; 操作符是hive的最小执行单元 Hive通过execmapper和execreducer执行MapReduce程序,执行模式有本地模式和分布式模式 每个操作符代表一个 HDF...

2019-01-16 09:51:38 995

原创 hive的数据倾斜以及优化策略

1. hive的数据倾斜 介绍:只要在分布式一定有shuffle,避免不了出现数据倾斜,在混淆数据的过程中出现数据分布不均匀。比如:在MR编程中reducetask阶中的数据的大小不一致,即很多的数据集中到了一个reducetask中,hive的数据倾斜就是mapreduce的数据倾斜 maptask reducetask最后就是reducetask阶段的数据倾斜。  不会产生数据倾斜的场景...

2019-01-16 09:50:18 384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除