- 博客(67)
- 收藏
- 关注
原创 Java-spring
一:Spring 概述spring是最受欢迎的企业级java应用程序开发框架,开发人员使用 Spring 框架来创建性能好、易于测试、可重用的代码。spring框架的优点:健壮的servelt容器 包和类的管理方便 测试容易 封装强大,api使用简单 提供的事务接口依赖注入DI...
2020-06-17 09:19:45 136
原创 c++ Introduction to study -1 day
一:简介C++ 是一种静态类型的、编译式的、通用的、大小写敏感的、不规则的编程语言,支持过程化编程、面向对象编程和泛型编程。C++ 被认为是一种中级语言,它综合了高级语言和低级语言的特点。C++ 是由 Bjarne Stroustrup 于 1979 年在新泽西州美利山贝尔实验室开始设计开发的。C++ 进一步扩充和完善了 C 语言,最初命名为带类的C,后来在 1983 年更名为 C++...
2019-11-06 14:45:28 133
转载 运维必须掌握的27道Linux面试题
1.解释下什么是GPL,GNU,自由软件?GPL:(通用公共许可证):一种授权,任何人有权取得、修改、重新发布自由软件的权力。GNU:(革奴计划):目标是创建一套完全自由、开放的的操作系统。自由软件:是一种可以不受限制地自由使用、复制、研究、修改和分发的软件。主要许可证有GPL和BSD许可证两种。2.如何选择Linux操作系统版本?一般来讲,桌面用户首选Ubuntu;服务...
2019-06-14 17:23:44 206
转载 JAVA基础编程练习50题
本文对50道经典的java程序题进行详细解说,对于初学者可以跳过一些逻辑性太强的题目,比如第一题用到了方法的递归,初学者可能不理解,最好先看那些有if、for、while可以简单解决的程序题!但是,对于比较深入学习过的同学,还是希望可以一口气就看完,这是比较全面思维锻炼!【程序1】题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如...
2019-06-14 17:21:03 964
原创 Maven简单的学习分享
Maven教程概念Maven是一个项目管理工具,可以对java,scala和其他语言的用于构建和项目管理。Maven的标准目录,使用原则是约定由于配置的原则,请遵守这样的目录结构: 目录 目的 ${basedir} 存放pom.xml和所有的子目录 ${basedir}/src/main/jav...
2019-06-11 14:02:59 218
原创 Storm的本地开发和集群开发
1.创建一个Maven项目pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocat...
2019-01-27 17:14:53 430
原创 Storm的初识和安装以及使用
1.产生的背景对于大量的海量数据的批处理,传统上使用的hadoop、hive等,优点是吞吐量大、自动容错的特点,但是同时缺点也十分的明显,只适合一些离线的数据处理,对于一些实时数据处理并不擅长,由此产生的Storm、SparkStreaming、Fink等实时的计算系统。2.简介Apache Storm 是一个Twitter的开源分布式、实时、可扩展、容错的操作系统。Strom处理数据...
2019-01-26 11:48:53 443
原创 hadoop分布式集群搭建
hadoop分布式集群搭建:1. 集群规划:2.具体步骤:(1)上传安装包,并解压到相关目录:[hadoop@hadoop01 home]$ put c:/hadoop-2.6.5-centos-6.7.tar.gz[hadoop@hadoop01 home]$tar -zxvf hadoop-2.6.5-centos-6.7.tar.gz -C /home/hadoop/a...
2019-01-24 22:07:13 142 3
原创 hadoop集群搭建前的准备
2019-01-11 11:23:351. 修改主机名:[root@localhost home]# sudo vi /etc/sysconfig/network 修改主机名:2. 设置系统默认启动级别:[root@localhost home]#vi /etc/inittab改默认启动级别,3 是多用户模式,并且不启动图形界面3. 配置 hadoop 用户 sudoer ...
2019-01-24 22:06:14 223
原创 hadoop生态的大体介绍
重点组件:HDFS:Hadoop 的分布式文件存储系统MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型Hive:基于 Hadoop 的类 SQL 数据仓库工具HBase:基于 Hadoop 的列式分布式 NoSQL 数据库ZooKeeper:分布式协调服务组件Mahout:基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库Ooz...
2019-01-24 22:04:55 197
原创 hadoop的HA
1. 为什么要搭建HA? 在hadoop2.x之前,在HDFS 集群中NameNode 存在单点故障 (SPOF:A Single Point of Failure)。对于只有一个 NameNode 的集群,如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级),那么整个集群将无法使用,必须等到 NameNode 重新启动,之后才能对外提供服务,这个方式在生成环境中是绝对不允许出...
2019-01-24 22:03:14 163
原创 ElasticSearch的介绍及安装
一、ElasticSearch的介绍1、简介(官网:https://www.elastic.co/) ElasticSearch是一款基于Luncene的实时分布式搜索和分析引擎。采用java编写,目标是让全文搜索变得简单(应用倒排索引),还可以进行大规模的横向扩展,支持PB级的结构化和非结构化海量数据的处理。(支持json格式文件)2、ElasticSearc...
2019-01-23 18:13:00 274
原创 Maven的菜鸟教程
1.什么是maven? maven是一个跨平台的项目管理工具。 作为Apache组织中的一个颇为成功的开源项目,Maven只要服务于Java平台的项目构建、依赖管理和项目信息管理。 Maven不涉及编码,但是涉及编码的方式(导入jar方式)2.项目的构建方式 编译————>运行单元——————>生成文档——————>打包和部署 ...
2019-01-21 16:47:22 3182 1
原创 MySQL的高级部分
1. MySQL的事务(1)存储引擎的介绍 介绍:当客户端发送一条SQL语句给服务器时,服务器端通过缓存、语法检查、校验通过之后,然后会通过调用底层的一些软件组织,去从数据库中查询数据,然后将查询到的结果集返回给客户端,而这些底层的软件组织就是存储引擎。 MySQL的存储引擎: - MySQL的核心就是存储引擎,MySQL可以设置多种不同的存储引擎,不同的存储引擎在索引...
2019-01-21 10:50:32 167
原创 MySQL的进阶部分
1.MySQL的表的约束(1)数据完整性的介绍: 所谓的数据的完整性就是,数据的准确性和可靠性。可以通过添加完整性约束来提高数据的完整性:实体完整性:为每一个实体(记录)确定一个唯一标识。 实现方式:主键约束、唯一约束、主键自增 域完整性:表示字段是完整的 实现方式:字段的类型、非空约束、默认值 引用完整性:参照表和被参照表 实现方式:外键约束 自定义完整性:...
2019-01-20 18:27:40 128
原创 MySQL的查询操作
1. 基础的查询操作#简单查询select * from emp; //查询emp中所有的记录select empno, job,ename from emp; //查询emp表中的某些字段select ename as 名字 from emp; //使用字段别名去重 distinctselect distinct deotno from emp; //去除重复的行...
2019-01-20 16:40:36 203 3
原创 MySQL的基础分部
MySQL的基本操作#进入数据库mysql -h localhost -uroot -p#展示所有的数据库show databases #进入某一个数据库use database_name#展示某个数据库中的所有表show tables#退出数据库exit&&quit#允许用户远程登录grant all on *.* to 用户名@'%'iden...
2019-01-20 14:13:56 115
原创 MySQL的介绍与安装
1. 数据库的介绍(1)数据库的相关概念: 数据:描述事物的符号,多表现与文本、图片、音频、视频。 数据库:按照一定的格式,存放数据的仓库。 数据库管理系统:如何科学的组织和存储数据,如何高效的获取和维护数据 数据库类型:Oracle、mysql、SQL server、DB2、foxpro、Access 数据库应用程序:将数据存储在数据库中,直接和用户交互的应用...
2019-01-20 09:04:00 178
原创 初识mySQL
1.mysql初识 A.mySQL是一个关系型的数据库管理系统。 B.mySQL采用关系模型D对数据采用分表的形式管理,对多张表存在的情况下,可以采用分 库的形式管理。 C.mySQL数据管理系统中可以的管理多个数据库,同时一个数据库可以管理多张表。2.mySQL的安装下载地址:www.mysql.com或...
2019-01-19 09:28:16 139
原创 Yarn的基础介绍以及job的提交流程
1.YARN的基础理论1)关于YARN的介绍: YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。2)hadoop1.x中YARN的不足: - JobTracker是集群的事务的集中处理,存在单点故障 - JobTracker需要完成得任务太多,既要维...
2019-01-18 13:36:58 492
原创 sqoop的常用命令
1. 基础命令列出MySQL中有那些数据库sqoop list-databases \ --connect jdbc:mysql://hadoop01:3306/ \--username hadoop \--password root \列出MySQL中的数据库有哪些表sqoop list-tables \ --connect jdbc:mysql://hadoop...
2019-01-18 13:35:12 176
原创 sqoop的介绍以及部署安装
1.sqoop的介绍(1)介绍: Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。 导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、HBASE等数据存储系统。 导出数据:从hadoop的文件系统中导出数据到关系型数据库中。(2)工作机制 将导入导出的命令翻译成MapReduce程序来实现,并且M...
2019-01-18 13:33:59 207
原创 消息队列之kafka(整合flume)
补充:在flume的的lib中已经有了kafka的依赖包,所以直接使用flume的配置文件即可。这里举出kafka+flume的典型场景:(Kafka-----sink)source :netcatchannel:memorysink:kafka sinknetcat-kafka.conf#别名a1.sources=s1a1.channels=c1a1.sinks=k1...
2019-01-18 13:30:32 136
原创 消息队列之kafka(API)
1.模拟实现kafka的生产者消费者(原生API)解决相关依赖:<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka --><dependency> <groupId>org.apache.kafka</groupId> <artifactId&g...
2019-01-18 13:29:27 144
原创 消息队列之kafka(集群搭建)
1.kafka集群搭建 kafka安装包下载地址: 官网网址:http://kafka.apache.org/quickstart 中文官网:http://kafka.apachecn.org/quickstart.html 在 windows 平台,从官网下载:http://mirrors.hust.edu.cn/apache/kafka/1.1.0/ 在 centos 平台:wg...
2019-01-18 13:28:37 152
原创 消息队列之kafka(消费语义)
1. 消费语义的介绍 at last once:至少消费一次(对一条消息有可能多次消费,有可能会造成重复消费数据) 原因:Proudcer产生数据的时候,已经写入在broker中,但是由于broker的网络异常,没有返回ACK,这时Producer,认为数据没有写入成功,此时producer会再次写入,相当于一条数据,被写入了多次。 at most once:最多消费一次,...
2019-01-18 13:27:40 382
原创 消息队列之kafka(HA)
1. kafka的HA(1)zookeeper在kafka中的作用: - Zookeeper帮助kafka集群运行:存储一些元数据,还会帮助kafka集群进行管理(选主) - 存储关于消费者消费了哪些topic到那个进度的数据。 (2)kafka HA解决的问题: 存在的问题:kafka在0.8以前的版本中,并不提供high available机制,一旦一个或者...
2019-01-18 13:26:59 249
原创 消息队列之kafka(核心架构)
1. Kafka的经典架构 Kafka是LinkedIn 用于日志处理的分布式消息队列,同时支持离线和在线日志处理。 Kafka 对消息保存时根据 Topic 进行归类。 发送消息者就是Producer,消息的发布描述为Producer 消息接受者就是 Consumer,消息的订阅描述为 Consumer 每个 Kafka 实例称为 Broker,将中间的存储阵列称作 Broker(...
2019-01-18 11:18:36 283
原创 消息队列之kafka(基础介绍)
一、关于JMS1. JMS 的基础 JMS是Java提供的一套技术规范。即Java消息服务(Java message service)。应用程序接口。是一个Java平台中关于面向消息中间件的API。用于在两个应用程序之间或者分布式系统中发送消息,进行异步通信。Java消息服务是一个与具体平台无关的API。 用来异构系统集成通信,缓解系统瓶颈。 提高系统的伸缩性、增强系统用户体验。使得...
2019-01-18 11:17:08 135
原创 hdfs的四大机制和两大核心
四大机制:(1)心跳机制: 介绍: hdfs是主从架构,所有为了实时的得知dataNode是否存活,必须建立心跳机制,在整个hdfs运行过程中,dataNode会定时的向nameNode发送心跳报告已告知nameNode自己的状态。 心跳内容: - 报告自己的存活状态,每次汇报之后都会更新维护的计数信息 - 向nameNode汇报自己的存储的block列表信息...
2019-01-17 20:44:09 365
原创 HDFS的shell和API操作
1. HDFS的shell操作hadoop version //查看版本hadoop fs -appendToFile src(Linux中的文件) dest(hdfs目录下的文件) //追加hadoop fs -cat file(hdfs目录下的文件) //查看文件内容Hadoop fs -tail file(hdfs目录下的文件) //...
2019-01-17 20:41:19 247
原创 HDFS的基本概念介绍
1. HDFS的设计思路? hdfs是分布式的文件系统,用来在廉价的集群上做大数据量的存储。1.大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理2.每个小文件做冗余备份,并且分散存到不同的服务器,做到高可靠不丢失2. HDFS的架构?namenode:集群老大,掌管文件系统目录树,处理客户端读且请求SecondaryNamenode:持久化元数据,主要...
2019-01-17 20:32:25 194
原创 hbase的底层原理
1.hbase的底层逻辑架构(1)新旧版本的hbase的架构区别这是旧版本的hbase的架构图,一个regionserver中只有一个Hlog。这一张是新版本的图,每一个regionserver中可以有30个Hlog。老版本和新版本的变动: - 0.96版本以前,一个regionserver只有一个HLog,并且管理元数据有.meta. -root-两个元数据表。 - 0.98...
2019-01-17 10:42:25 884
原创 hbase的典型场景
1. hbase整合Mapreduce 在离线任务场景中,MapReduce访问HBASE数据,加快分析速度和扩展分析能力。从hbase中读取数据(result)public class ReadHBaseDataMR { private static final String ZK_KEY = "hbase.zookeeper.quorum"; private sta...
2019-01-17 10:40:46 247
原创 hbase的过滤器查询
hbase的过滤器有很多:大致分为两大类:比较过滤器和专用过滤器,过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端;hbase 过滤器的比较运算符: LESS ----- < LESS_OR_EQUAL ----- <= EQUAL ----- = NOT_EQUAL ----- <> GREATER_OR_EQU...
2019-01-17 10:39:50 140
原创 hbase的基本操作
1. shell操作常见命令:[root@hadoop01 ~]# hbase shell #进入HBASE客户端hbase(main):001:0> help “dml” #获取一组命令的提示hbase(main):001:0> help "put" 获取一个单独命令的提示帮助hbase(main):001:0> exit #退出客户端...
2019-01-17 10:38:32 458
原创 hbase的集群搭建
1.集群搭建1. 前置要求: - HBASE是用Java语言编写的,所以在安装HBASE时,必须安装jdk - 安装HBASE是必须有hadoop平台 - HBASE和jdk的版本存在兼容性,一定注意jdk:hadoop:2. 集群规划:3. 具体搭建:① 上传安装包(hbase-1.2.6-bin.tar.gz)②解压:tar zxvf hbase-1.2.6...
2019-01-17 10:37:04 211
原创 hbase的基本介绍
1. hbase的简介: HBASE是bigTable,(源代码是Java编写)的开源版本,是Apache Hadoop的数据库,是建立在hdfs之上,被设计用来提供高可靠性,高性能、列存储、可伸缩、多版本,的Nosql的分布式数据存储系统,实现对大型数据的实时,随机的读写请求。更是弥补了hive不能低延迟、以及行级别的增删改的缺点。 HBASE依赖于hdfs做底层的数据存储 H...
2019-01-17 10:35:36 595
原创 hive的执行流程
1. 执行流程概述查看hive语句的执行流程:explain select ….from t_table …;查看hive语句的执行流程:explain select ….from t_table …; 操作符是hive的最小执行单元 Hive通过execmapper和execreducer执行MapReduce程序,执行模式有本地模式和分布式模式 每个操作符代表一个 HDF...
2019-01-16 09:51:38 1007
原创 hive的数据倾斜以及优化策略
1. hive的数据倾斜 介绍:只要在分布式一定有shuffle,避免不了出现数据倾斜,在混淆数据的过程中出现数据分布不均匀。比如:在MR编程中reducetask阶中的数据的大小不一致,即很多的数据集中到了一个reducetask中,hive的数据倾斜就是mapreduce的数据倾斜 maptask reducetask最后就是reducetask阶段的数据倾斜。 不会产生数据倾斜的场景...
2019-01-16 09:50:18 395
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人