自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

转载 Spring AOP实现原理简介

AOP联盟标准AOP联盟将AOP体系分为三层,从三层结构可以看出,AOP实现方式有很多种,包括反射、元数据处理、程序处理、拦截器处理等,通过本节学习,你就会看到Spring AOP的实现使用的是Java语言本身的特性,即Java Proxy代理类、拦截器技术实现。AOP简介概念切面(Aspect) :官方的抽象定义为“一个关注点的模块化,这个关注点可能会横切多个对象”。连接点(Joinpoint)...

2018-04-28 16:00:53 79239 8

转载 spring IOC和DI源码分析

引言先看下最基本的启动 Spring 容器的例子:public static void main(String[] args) { ApplicationContext context = new ClassPathXmlApplicationContext("classpath:applicationfile.xml");}以上代码就可以利用配置文件来启动一个 Spring 容器了,请...

2018-04-27 09:27:45 6360 7

原创 java实现一个Rpc

import java.io.ObjectInputStream;import java.io.ObjectOutputStream;import java.lang.reflect.InvocationHandler;import java.lang.reflect.Method;import java.lang.reflect.Proxy;import java.net.Server...

2018-04-03 17:28:09 536

原创 使用工具网址

1  openssl使用教程 https://www.cnblogs.com/binchen-china/p/5651142.html http://blog.csdn.net/oldmtn/article/details/52208747

2018-01-23 11:42:35 306

原创 spark性能调优与数据倾斜

1 spark性能调优          常规性能调节1.1 分配资源          资源包括:executor、cpu per executor、memory per executor、drivermemory          提交作业的时候采取如下方式                              /usr/local/spark/bin/spark-

2017-09-04 19:42:45 603

转载 Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff

2017-09-04 14:55:53 649

转载 线程和进程

1 从内核的观点看,进程的目的就是担当分配系统资源(CPU时间、内存等)的基本单位。2 线程是进程的一个执行流,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。一个进程由几个线程组成(拥有很多相对独立的执行流的用户程序共享应用程序的大部分数据结构),线程与同属一个进程的其他的线程共享进程所拥有的全部资源。3 "进程——资源分配的最小单位,线程——程序执行的最小单位"

2017-07-27 19:24:47 240

转载 opentsdb在HBase中表结构设计

摘要 OpenTSDB是一个分布式的、可伸缩的时间序列数据库,在DB-engines的时间序列数据库排行榜上排名第五。它的特点是能够提供最高毫秒级精度的时间序列数据存储,能够长久保存原始数据并且不失精度。它拥有很强的数据写入能力,支持大并发的数据写入,并且拥有可无限水平扩展的存储容量。它的强大的数据写入能力与存储能力得益于它底层依赖的HBase数据库,也得益于它在表结构设计上做的大

2017-06-21 14:00:56 3318

原创 openTSDB的分布式集群的安装和使用

1  安装提前            确保安装了jdk            确保安装了hbase2 安装gnuplot          Opentsdb运行需要gnuplot 插件          [root@localhost local]# tar -zxvf gnuplot-4.4.0.tar.gz          [root@localhost lo

2017-04-14 14:54:51 8147 3

转载 全文检索引擎Solr系列—–全文检索基本原理

索引Solr/Lucene采用的是一种反向索引,所谓反向索引:就是从关键字到文档的映射过程,保存这种映射这种信息的索引称为反向索引左边保存的是字符串序列右边是字符串的文档(Document)编号链表,称为倒排表(Posting List)字段串列表和文档编号链表两者构成了一个字典。现在想搜索”lucene”,那么索引直接告诉我们,包含有”lucene”的文档有:2,3,10,3

2017-03-28 13:45:14 294

转载 SolrCloud原理介绍

一.简介SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。二.特色功能SolrCloud有几个特色功能:集中式的配置信息使用ZK进行集中配置启动时可以指定把Solr的相关配置文件上传Zo

2017-03-28 13:35:50 306

原创 storm系列之一

1 storm    对比Hadoop的批处理,Storm是个实时的、分布式以及具备高容错的计算系统    同hadoop一样,strom也可以处理大批量的数据,storm可以保证高可靠性的前提下还可以让批处理进行的实时2 storm架构    Nimbus守护进程,用于分配代码、布置任务及故障检测    Supervisor守护进程用于监听工作,开始并终止工作进程

2017-03-24 12:49:58 326

原创 spark系列之一

1 spark简介       Spark是基于内存计算的大数据分布式计算框架,提高了大数据环境下数据处理的实时性。       分布式计算       内存计算       容错      多计算范式2  安装部署 spark on yarn          master 192.168.100.200          slave1: 192.

2017-03-22 15:08:42 725

翻译 同步、异步、阻塞、非阻塞IO

1  概述同步(synchronous) IO和异步(asynchronous) IO,阻塞(blocking) IO和非阻塞(non-blocking)IO分别是什么。本文讨论的背景是Linux环境下的network IO。Stevens在文章中一共比较了五种IO Model:         blocking IO         nonblocking I

2017-01-18 16:22:02 347

翻译 hadoop2.0内核介绍

1  hadoop2.0内核1.1 HDFS分布式文件存储系统HDFS,提供高可用、高扩展性、高吞吐率的数据存储服务高可用:NameNode通过zookeeper实现高可用高扩展性:可以通过添加服务器来水平扩展hadoop集群将文件切分成等大的数据块,存储到多台机器上,并且数据块是冗余存储,高容错性可以将HDFS看成是一个容量巨大、高容错的磁盘提供了移动

2016-12-07 15:16:50 2061

翻译 hadoop2.0 MapReduce编程(java客户端)

1  通用开发步骤       创建java工程       引入相应的hadoop相关jar                share/hadoop/mapreduce下面的全部jar               share/hadoop/common/hadoop-common-2.7.1.jar               share/hadoop/common/li

2016-12-07 14:45:46 778

翻译 hadoop2.0生产环境高可用集群原理和搭建

非高可用集群搭建可以参看我写的博客http://blog.csdn.net/wyl6019/article/details/528747791  体系架构图 集群节点分配情况192.168.100.200      wangyl-0        Active NameNode   192.168.100.201      wangyl-1       

2016-12-05 15:41:27 1598

原创 linux单进程服务保活supervise

1 概述由于资源的有限或者投资等原因,服务器资源不够用,不能确保单个服务器跑单个服务,更别说做一些进程的主备高可用在这种情况下也同样希望进程高可用,本次采用demontools提供的daemontools-0.76来实现单点单进程的保活机制2 安装安装路径:/home/app安装patch包[root@localhost daemontools-0.

2016-11-24 19:48:31 4149

翻译 flume-ng配置文件详解(四)

1  高可用对于一个系统而言,高可用指在一个固定时间内,系统无故障运行的时间。1.1  Source高可用Agent实例用来作为Source源收集数据的时候,当Agent进程死掉时候,这时候会降低系统的高可用。Agent在supervise下启动,如果Agent进程死掉,会自动启动。对Agent进程进行监控,死掉之后进行报警。1.2 Sink高可用A

2016-11-24 16:53:18 401

翻译 flume-ng配置文件详解(三)

8 Replicating Channel Selectorflume从一个agent1将event发送到多个通道,称为数据的复制关键配置:agent1.sources.r1.selector.type = replicating在192.168.100.200节点上[root@localhost apache-flume-1.7.0-bin]# vi

2016-11-22 19:51:02 783

翻译 flume-ng配置文件详解(二)

4 Syslogtcp案例[root@localhost apache-flume-1.7.0-bin]# vi conf/tcp.confagent1.sources = r1agent1.sinks = k1agent1.channels = c1agent1.sources.r1.type = syslogtcpagent1.sources.r1.po

2016-11-22 11:09:11 651

翻译 flume-ng配置文件详解(一)

1 Avro案例[root@localhost conf]# vi avro.confagent1.sources = r1agent1.sinks = k1agent1.channels = c1 agent1.sources.r1.type = avroagent1.sources.r1.channels = c1agent1.sources.r1.bi

2016-11-22 11:04:46 2334

原创 linux高CPU进程

1 使用top命令可以看到pid为31199的进程占用CPU2 查看具体进程信息[root@localhost /]# cd proc/[root@localhost proc]# cd 31199[root@localhost 31199]# ll[root@localhost tomcat-webems]# pstree -H 13399

2016-11-16 11:41:19 535

翻译 flume-ng单节点搭建

1 概述flume是一个高可用、分布式的日志收集系统,同时flume支持对数据的简单处理,支持failover和负载均衡,支持可定制的数据源和数据存储能力2 体系架构图3 术语Agent : 一个flume节点的实例,包括Source、Channel、SinkSource: 完成对日志的收集,分成transtion和eve

2016-11-15 19:42:18 561

翻译 kafka集群安装(独立zookeeper集群)

1 集群环境192.168.100.200192.168.100.201192.168.100.2022 按照步骤[root@localhost local]# tar -zxvf kafka_2.11-0.10.1.0.tgz[root@localhost local]# cd kafka_2.11-0.10.1.0/[root@local

2016-11-14 18:39:27 493

翻译 HDFS简介

1 概述hadoop的分布式文件系统硬件故障常态适用于批处理高时延的场景,追求的更过是吞吐量,而不是低时延尽量减少数据传输,由存储数据的节点负责计算该部分数据,减少数据的网络传输hdfs采用简单一致性模型,就是说一次写入之后就不会修改2 HDFS体系架构图master-slave架构master : namenode节点,维护者整个文件系统树

2016-11-10 19:12:22 336

翻译 sqoop系列(一)

1 sqoop2 shell命令使用查看帮助[root@localhost hadoop]# sqoop --help列出所有的数据库[root@localhost hadoop]# sqoop list-databases --connect jdbc:mysql://localhost:3306 -username root -password

2016-11-08 19:39:58 358

翻译 hive系列(一)

我的hive数据文件在/usr/local/hive目录下1 创建数据库; hive> createdatabasehive; hive> use hive; 2 创建表 hive> create table emp(    > empno int,    > empname string,    > job string,    > mg

2016-11-08 17:21:35 721

翻译 hive系列(二)

1 hive整体架构client : linux shell、WEB GUI元数据存储:mysql、deby,用于存储HDFS中文件与表之间的关系、表名称、表所属数据库(默认default数据库)等等解析器:解释器、编译器、优化器、执行器,这是hive的核心,将sql转换成mapreduceHDFS:存储,利用mapreduce进行计算2 HBase整体架构

2016-11-08 16:26:21 601

翻译 HBase系列(三)

1 发展背景随着大数据时代的到来,数亿级的数据存储和检索成为难题,HDFS将成百上千的服务器硬盘融合成一个整体用以解决大数据的存储问题,构建其上的MapReduce解决了计算这些超大硬盘的数据的问题;但是MapReduce就是一个简单的查询都有高的延迟性,为了解决高效的读写数据到HDFS,HBase应用而生。2 高效读写简单原理快速读:就是索引技术,HB

2016-11-01 19:50:44 731

翻译 HBase系列(二)

1 HRegion结构参看http://blog.csdn.net/wyl6019/article/details/52995909结构图可以看出HRegion的结构包括:当向HBase中写入数据时,会向HLog中写入日记,之后在向HRegion的MemStore中写入,接着异步写入到StoreFile中,存储到HDFS中;                Client先询问

2016-11-01 18:20:46 498

翻译 HBase系列(一)

1 概述HBase是谷歌BigTable开源实现;面向列存储的非关系型数据库;存储海量数据;2 表的特点大:一个表可以有数十亿行,上百万列;面向列:稀疏:对于null的列,并不占用内存空间,表可以设计的可稀疏;数据类型单一:存储的都是字符串3 术语主键(Row Key):数据的主键,主要用来查询;列族(Co

2016-11-01 18:18:06 316

翻译 zookeeper系列(二)

1  shell命令行的基本使用[root@localhost bin]# ./zkCli.sh -server 10.10.2.228:2181[zk: 10.10.2.228:2181(CONNECTED) 1] --help    #查看有那些命令[zk: 10.10.2.228:2181(CONNECTED) 2] ls /  #列出根目录下zNode节点#watc

2016-10-30 09:53:44 455

翻译 zookeeper系列(一)

1 概述    zookeeper是分布式服务框架,是hadoop Ecosystem中组件。 zookeeper主要应用包括:集群管理、统一命名服务、分布式配置管理、分布式消息队列、分布式锁、分布式通知等。2 zookeeper基本概念2.1 数据模型zookeeper中的数据模型跟linux系统下目录结构相似,根目录/,每一个节点为zNode,每一个

2016-10-29 20:05:04 333

翻译 sqoop-1.4.6的安装

[root@localhost local]# tar -zxvf sqoop-1.99.7-bin-hadoop200.tar.gz                [root@localhost sqoop-1.99.7-bin-hadoop200]# mkdir /usr/local/sqoop-1.99.7-bin-hadoop200/lib拷贝mysql的驱动包到

2016-10-25 09:06:32 329

翻译 hive安装(本地mariaDB为元数据库)

1 mariaDB安装          [root@localhost ~]# rpm -qa | grep mariadb          [root@localhost ~]# yum remove mysql mysql-server mysql-libs compat-mysql51       --删除自带的madiaDb

2016-10-25 08:58:31 1834

翻译 pig安装

[root@localhost local]# tar -zxvf pig-0.16.0.tar.gz设置环境变量[root@localhost etc]# vi /etc/profile                    PIG_HOME=/usr/local/pig-0.16.0/        HBASE_HOME=/usr/local/hbase-1.2.3/

2016-10-25 08:54:34 288

翻译 部署hbase(独立zookeeper)

1 环境                                 192.168.100.200  HMaster                   192.168.100.201  HRegionServer                   192.168.100.202  HRegionServer

2016-10-24 17:27:08 856

翻译 hadoop-2.7.1的安装

注意:官网提供的都是32位的安装包,64位的安装包需要自己编译  1  部署                    192.168.100.200  master             192.168.100.201  slave1            192.168.100.202  slave22  三台安装jdk

2016-10-20 17:05:12 2105

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除