爱学习的小明同学-CSDN博客

原创 Java-spring

一：Spring 概述spring是最受欢迎的企业级java应用程序开发框架，开发人员使用 Spring 框架来创建性能好、易于测试、可重用的代码。spring框架的优点：健壮的servelt容器包和类的管理方便测试容易封装强大，api使用简单提供的事务接口依赖注入DI...

2020-06-17 09:19:45 136

原创 c++ Introduction to study -1 day

一：简介C++ 是一种静态类型的、编译式的、通用的、大小写敏感的、不规则的编程语言，支持过程化编程、面向对象编程和泛型编程。C++ 被认为是一种中级语言，它综合了高级语言和低级语言的特点。C++ 是由 Bjarne Stroustrup 于 1979 年在新泽西州美利山贝尔实验室开始设计开发的。C++ 进一步扩充和完善了 C 语言，最初命名为带类的C，后来在 1983 年更名为 C++...

2019-11-06 14:45:28 133

转载运维必须掌握的27道Linux面试题

1.解释下什么是GPL,GNU,自由软件？GPL：（通用公共许可证）：一种授权，任何人有权取得、修改、重新发布自由软件的权力。GNU:(革奴计划)：目标是创建一套完全自由、开放的的操作系统。自由软件：是一种可以不受限制地自由使用、复制、研究、修改和分发的软件。主要许可证有GPL和BSD许可证两种。2.如何选择Linux操作系统版本?一般来讲，桌面用户首选Ubuntu；服务...

2019-06-14 17:23:44 206

转载 JAVA基础编程练习50题

本文对50道经典的java程序题进行详细解说，对于初学者可以跳过一些逻辑性太强的题目，比如第一题用到了方法的递归，初学者可能不理解，最好先看那些有if、for、while可以简单解决的程序题！但是，对于比较深入学习过的同学，还是希望可以一口气就看完，这是比较全面思维锻炼！【程序1】题目：古典问题：有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到第三个月后每个月又生一对兔子，假如...

2019-06-14 17:21:03 964

原创 Maven简单的学习分享

Maven教程概念Maven是一个项目管理工具，可以对java,scala和其他语言的用于构建和项目管理。Maven的标准目录,使用原则是约定由于配置的原则,请遵守这样的目录结构: 目录目的 ${basedir} 存放pom.xml和所有的子目录 ${basedir}/src/main/jav...

2019-06-11 14:02:59 218

原创 Storm的本地开发和集群开发

1.创建一个Maven项目pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocat...

2019-01-27 17:14:53 430

原创 Storm的初识和安装以及使用

1.产生的背景对于大量的海量数据的批处理，传统上使用的hadoop、hive等，优点是吞吐量大、自动容错的特点，但是同时缺点也十分的明显，只适合一些离线的数据处理，对于一些实时数据处理并不擅长，由此产生的Storm、SparkStreaming、Fink等实时的计算系统。2.简介Apache Storm 是一个Twitter的开源分布式、实时、可扩展、容错的操作系统。Strom处理数据...

2019-01-26 11:48:53 443

原创 hadoop分布式集群搭建

hadoop分布式集群搭建：1. 集群规划：2.具体步骤：（1）上传安装包，并解压到相关目录：[hadoop@hadoop01 home]$ put c:/hadoop-2.6.5-centos-6.7.tar.gz[hadoop@hadoop01 home]$tar -zxvf hadoop-2.6.5-centos-6.7.tar.gz -C /home/hadoop/a...

2019-01-24 22:07:13 142 3

原创 hadoop集群搭建前的准备

2019-01-11 11:23:351. 修改主机名：[root@localhost home]# sudo vi /etc/sysconfig/network 修改主机名：2. 设置系统默认启动级别：[root@localhost home]#vi /etc/inittab改默认启动级别，3 是多用户模式，并且不启动图形界面3. 配置 hadoop 用户 sudoer ...

2019-01-24 22:06:14 223

原创 hadoop生态的大体介绍

重点组件：HDFS：Hadoop 的分布式文件存储系统MapReduce：Hadoop 的分布式程序运算框架，也可以叫做一种编程模型Hive：基于 Hadoop 的类 SQL 数据仓库工具HBase：基于 Hadoop 的列式分布式 NoSQL 数据库ZooKeeper：分布式协调服务组件Mahout：基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库Ooz...

2019-01-24 22:04:55 197

原创 hadoop的HA

1. 为什么要搭建HA？在hadoop2.x之前，在HDFS 集群中NameNode 存在单点故障 (SPOF：A Single Point of Failure)。对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，必须等到 NameNode 重新启动，之后才能对外提供服务，这个方式在生成环境中是绝对不允许出...

2019-01-24 22:03:14 163

原创 ElasticSearch的介绍及安装

一、ElasticSearch的介绍1、简介(官网：https://www.elastic.co/) ElasticSearch是一款基于Luncene的实时分布式搜索和分析引擎。采用java编写，目标是让全文搜索变得简单（应用倒排索引），还可以进行大规模的横向扩展，支持PB级的结构化和非结构化海量数据的处理。（支持json格式文件）2、ElasticSearc...

2019-01-23 18:13:00 274

原创 Maven的菜鸟教程

1.什么是maven？ maven是一个跨平台的项目管理工具。作为Apache组织中的一个颇为成功的开源项目，Maven只要服务于Java平台的项目构建、依赖管理和项目信息管理。 Maven不涉及编码，但是涉及编码的方式（导入jar方式）2.项目的构建方式编译————>运行单元——————>生成文档——————>打包和部署 ...

2019-01-21 16:47:22 3182 1

原创 MySQL的高级部分

1. MySQL的事务（1）存储引擎的介绍介绍：当客户端发送一条SQL语句给服务器时，服务器端通过缓存、语法检查、校验通过之后，然后会通过调用底层的一些软件组织，去从数据库中查询数据，然后将查询到的结果集返回给客户端，而这些底层的软件组织就是存储引擎。 MySQL的存储引擎： - MySQL的核心就是存储引擎，MySQL可以设置多种不同的存储引擎，不同的存储引擎在索引...

2019-01-21 10:50:32 167

原创 MySQL的进阶部分

1.MySQL的表的约束（1）数据完整性的介绍：所谓的数据的完整性就是，数据的准确性和可靠性。可以通过添加完整性约束来提高数据的完整性：实体完整性：为每一个实体（记录）确定一个唯一标识。实现方式：主键约束、唯一约束、主键自增域完整性：表示字段是完整的实现方式：字段的类型、非空约束、默认值引用完整性：参照表和被参照表实现方式：外键约束自定义完整性：...

2019-01-20 18:27:40 128

原创 MySQL的查询操作

1. 基础的查询操作#简单查询select * from emp; //查询emp中所有的记录select empno, job,ename from emp; //查询emp表中的某些字段select ename as 名字 from emp; //使用字段别名去重 distinctselect distinct deotno from emp; //去除重复的行...

2019-01-20 16:40:36 203 3

原创 MySQL的基础分部

MySQL的基本操作#进入数据库mysql -h localhost -uroot -p#展示所有的数据库show databases #进入某一个数据库use database_name#展示某个数据库中的所有表show tables#退出数据库exit&&quit#允许用户远程登录grant all on *.* to 用户名@'%'iden...

2019-01-20 14:13:56 115

原创 MySQL的介绍与安装

1. 数据库的介绍（1）数据库的相关概念：数据：描述事物的符号，多表现与文本、图片、音频、视频。数据库：按照一定的格式，存放数据的仓库。数据库管理系统：如何科学的组织和存储数据，如何高效的获取和维护数据数据库类型：Oracle、mysql、SQL server、DB2、foxpro、Access 数据库应用程序：将数据存储在数据库中，直接和用户交互的应用...

2019-01-20 09:04:00 178

原创初识mySQL

1.mysql初识 A.mySQL是一个关系型的数据库管理系统。 B.mySQL采用关系模型D对数据采用分表的形式管理，对多张表存在的情况下，可以采用分库的形式管理。 C.mySQL数据管理系统中可以的管理多个数据库，同时一个数据库可以管理多张表。2.mySQL的安装下载地址：www.mysql.com或...

2019-01-19 09:28:16 139

原创 Yarn的基础介绍以及job的提交流程

1.YARN的基础理论1）关于YARN的介绍： YARN 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。2）hadoop1.x中YARN的不足： - JobTracker是集群的事务的集中处理，存在单点故障 - JobTracker需要完成得任务太多，既要维...

2019-01-18 13:36:58 492

原创 sqoop的常用命令

1. 基础命令列出MySQL中有那些数据库sqoop list-databases \ --connect jdbc:mysql://hadoop01:3306/ \--username hadoop \--password root \列出MySQL中的数据库有哪些表sqoop list-tables \ --connect jdbc:mysql://hadoop...

2019-01-18 13:35:12 176

原创 sqoop的介绍以及部署安装

1.sqoop的介绍（1）介绍： Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。导入数据：MySQL、Oracle导入数据到hadoop的hdfs、hive、HBASE等数据存储系统。导出数据：从hadoop的文件系统中导出数据到关系型数据库中。（2）工作机制将导入导出的命令翻译成MapReduce程序来实现，并且M...

2019-01-18 13:33:59 207

原创消息队列之kafka(整合flume)

补充：在flume的的lib中已经有了kafka的依赖包，所以直接使用flume的配置文件即可。这里举出kafka+flume的典型场景：（Kafka-----sink）source ：netcatchannel：memorysink：kafka sinknetcat-kafka.conf#别名a1.sources=s1a1.channels=c1a1.sinks=k1...

2019-01-18 13:30:32 136

原创消息队列之kafka(API)

1.模拟实现kafka的生产者消费者（原生API）解决相关依赖：<dependency> <groupId>org.apache.kafka</groupId> <artifactId&g...

2019-01-18 13:29:27 144

原创消息队列之kafka(集群搭建)

1.kafka集群搭建 kafka安装包下载地址：官网网址：http://kafka.apache.org/quickstart 中文官网：http://kafka.apachecn.org/quickstart.html 在 windows 平台，从官网下载：http://mirrors.hust.edu.cn/apache/kafka/1.1.0/ 在 centos 平台：wg...

2019-01-18 13:28:37 152

原创消息队列之kafka(消费语义)

1. 消费语义的介绍 at last once：至少消费一次（对一条消息有可能多次消费，有可能会造成重复消费数据）原因：Proudcer产生数据的时候，已经写入在broker中，但是由于broker的网络异常，没有返回ACK，这时Producer,认为数据没有写入成功，此时producer会再次写入，相当于一条数据，被写入了多次。 at most once：最多消费一次，...

2019-01-18 13:27:40 382

原创消息队列之kafka(HA)

1. kafka的HA（1）zookeeper在kafka中的作用： - Zookeeper帮助kafka集群运行：存储一些元数据，还会帮助kafka集群进行管理（选主） - 存储关于消费者消费了哪些topic到那个进度的数据。（2）kafka HA解决的问题：存在的问题：kafka在0.8以前的版本中，并不提供high available机制，一旦一个或者...

2019-01-18 13:26:59 249

原创消息队列之kafka(核心架构)

1. Kafka的经典架构 Kafka是LinkedIn 用于日志处理的分布式消息队列，同时支持离线和在线日志处理。 Kafka 对消息保存时根据 Topic 进行归类。发送消息者就是Producer，消息的发布描述为Producer 消息接受者就是 Consumer，消息的订阅描述为 Consumer 每个 Kafka 实例称为 Broker，将中间的存储阵列称作 Broker(...

2019-01-18 11:18:36 283

原创消息队列之kafka(基础介绍)

一、关于JMS1. JMS 的基础 JMS是Java提供的一套技术规范。即Java消息服务（Java message service）。应用程序接口。是一个Java平台中关于面向消息中间件的API。用于在两个应用程序之间或者分布式系统中发送消息，进行异步通信。Java消息服务是一个与具体平台无关的API。用来异构系统集成通信，缓解系统瓶颈。提高系统的伸缩性、增强系统用户体验。使得...

2019-01-18 11:17:08 135

原创 hdfs的四大机制和两大核心

四大机制：（1）心跳机制：介绍： hdfs是主从架构，所有为了实时的得知dataNode是否存活，必须建立心跳机制，在整个hdfs运行过程中，dataNode会定时的向nameNode发送心跳报告已告知nameNode自己的状态。心跳内容： - 报告自己的存活状态，每次汇报之后都会更新维护的计数信息 - 向nameNode汇报自己的存储的block列表信息...

2019-01-17 20:44:09 365

原创 HDFS的shell和API操作

1. HDFS的shell操作hadoop version //查看版本hadoop fs -appendToFile src(Linux中的文件) dest(hdfs目录下的文件) //追加hadoop fs -cat file(hdfs目录下的文件) //查看文件内容Hadoop fs -tail file(hdfs目录下的文件) //...

2019-01-17 20:41:19 247

原创 HDFS的基本概念介绍

1. HDFS的设计思路？ hdfs是分布式的文件系统，用来在廉价的集群上做大数据量的存储。1.大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理2.每个小文件做冗余备份，并且分散存到不同的服务器，做到高可靠不丢失2. HDFS的架构？namenode：集群老大，掌管文件系统目录树，处理客户端读且请求SecondaryNamenode：持久化元数据，主要...

2019-01-17 20:32:25 194

原创 hbase的底层原理

1.hbase的底层逻辑架构（1）新旧版本的hbase的架构区别这是旧版本的hbase的架构图，一个regionserver中只有一个Hlog。这一张是新版本的图，每一个regionserver中可以有30个Hlog。老版本和新版本的变动： - 0.96版本以前，一个regionserver只有一个HLog，并且管理元数据有.meta. -root-两个元数据表。 - 0.98...

2019-01-17 10:42:25 884

原创 hbase的典型场景

1. hbase整合Mapreduce 在离线任务场景中，MapReduce访问HBASE数据，加快分析速度和扩展分析能力。从hbase中读取数据（result）public class ReadHBaseDataMR { private static final String ZK_KEY = "hbase.zookeeper.quorum"; private sta...

2019-01-17 10:40:46 247

原创 hbase的过滤器查询

hbase的过滤器有很多：大致分为两大类：比较过滤器和专用过滤器，过滤器的作用是在服务端判断数据是否满足条件，然后只将满足条件的数据返回给客户端；hbase 过滤器的比较运算符： LESS ----- < LESS_OR_EQUAL ----- <= EQUAL ----- = NOT_EQUAL ----- <> GREATER_OR_EQU...

2019-01-17 10:39:50 140

原创 hbase的基本操作

1. shell操作常见命令：[root@hadoop01 ~]# hbase shell #进入HBASE客户端hbase(main):001:0> help “dml” #获取一组命令的提示hbase(main):001:0> help "put" 获取一个单独命令的提示帮助hbase(main):001:0> exit #退出客户端...

2019-01-17 10:38:32 458

原创 hbase的集群搭建

1.集群搭建1. 前置要求： - HBASE是用Java语言编写的，所以在安装HBASE时，必须安装jdk - 安装HBASE是必须有hadoop平台 - HBASE和jdk的版本存在兼容性，一定注意jdk：hadoop：2. 集群规划：3. 具体搭建：① 上传安装包（hbase-1.2.6-bin.tar.gz）②解压：tar zxvf hbase-1.2.6...

2019-01-17 10:37:04 211

原创 hbase的基本介绍

1. hbase的简介： HBASE是bigTable,（源代码是Java编写）的开源版本，是Apache Hadoop的数据库，是建立在hdfs之上，被设计用来提供高可靠性，高性能、列存储、可伸缩、多版本，的Nosql的分布式数据存储系统，实现对大型数据的实时，随机的读写请求。更是弥补了hive不能低延迟、以及行级别的增删改的缺点。 HBASE依赖于hdfs做底层的数据存储 H...

2019-01-17 10:35:36 595

原创 hive的执行流程

1. 执行流程概述查看hive语句的执行流程：explain select ….from t_table …;查看hive语句的执行流程：explain select ….from t_table …; 操作符是hive的最小执行单元 Hive通过execmapper和execreducer执行MapReduce程序，执行模式有本地模式和分布式模式每个操作符代表一个 HDF...

2019-01-16 09:51:38 1007

原创 hive的数据倾斜以及优化策略

1. hive的数据倾斜介绍：只要在分布式一定有shuffle，避免不了出现数据倾斜，在混淆数据的过程中出现数据分布不均匀。比如：在MR编程中reducetask阶中的数据的大小不一致，即很多的数据集中到了一个reducetask中，hive的数据倾斜就是mapreduce的数据倾斜 maptask reducetask最后就是reducetask阶段的数据倾斜。不会产生数据倾斜的场景...

2019-01-16 09:50:18 395

空空如也

空空如也