Supernova的博客

大丈夫抱经世之才,岂可空老于林泉之下

排序:
默认
按更新时间
按访问量

大数据实战之Logstash采集->Kafka->ElasticSearch检索

1. Logstash概述   Logstash的官网地址为:https://www.elastic.co/cn/products/logstash,以下是官方对Logstash的描述。  Logstash是与Flume类似,也是一种数据采集工具,区别在于组件和特性两大方面。常用的数据采集工具有S...

2018-06-22 22:44:49

阅读数:187

评论数:0

【ElasticSearch故障处理】OpenJDK 64-Bit Server VM warning

【故障描述】  VM虚拟机安装ElasticSearch集群,有三台Linux,完成安装后,执行启动命令:bin/elasticsearch -d 。 运行结果报错:OpenJDK 64-Bit Server VM warning: If the number of processors is e...

2018-06-20 22:40:35

阅读数:1871

评论数:1

【JVM】TroubleShooting之内存溢出异常(OOM)与调优

1. OOM概述    If your application's execution time becomes longer and longer, or if the operating system seems to be performing slower and slower, this...

2018-06-18 14:51:29

阅读数:96

评论数:0

【JVM】上帝视角看JVM内存模型,分而治之论各模块详情

1. 上帝视角【树看JVM】【图看JVM】2. 分而治之 2.1 堆区    构成:堆区由新生代和老年代组成,新生代中包含伊甸区(Eden)、幸存者区(survivor from 、survivor to)和老年代。    GC:当创建新的对象时,对象首先会被放入Eden和survivor fro...

2018-06-17 18:07:54

阅读数:136

评论数:0

【Memcached】原理、体系架构、基本操作及路由算法

1. 什么是Memcached    Memcached的官网网站是:http://memcached.org/,官方对Memcached的描述如下图:    从官方的描述中可以总结出,Memcached是一个高性能分布式的内存对象缓存系统。它将数据以key-value形式存储的存储在内存中,极大...

2018-06-16 17:33:56

阅读数:102

评论数:0

【Zookeeper】编程实战之Zookeeper分布式锁实现秒杀

1. Zookeeper简述    我们要了解一样技术,首先应该要到它的官网,因为官网的信息一般都是最准确的,如下图是Zookeeper官网对它的介绍。    从官网的介绍中,可以总结出,Zookeeper是一个集中式服务,它能够实现高度可靠的分布式协调,可用于开发和维护开源服务器。    除了官...

2018-06-16 12:41:48

阅读数:171

评论数:2

【Spark】编程实战之模拟SparkRPC原理实现自定义RPC

1. 什么是RPC       RPC(Remote Procedure Call)远程过程调用。在Hadoop和Spark中都使用了PRC,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。简单来说,就是有A、B两台机器,A机器可以调用B机器上的程序。2. Spark ...

2018-06-15 21:06:05

阅读数:95

评论数:0

【Spark】Spark核心之弹性分布式数据集RDD

1. RDD概述 1.1 什么是RDD    (1) RDD(Resilient Distributed Dataset)弹性分布式数据集,它是Spark的基本数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。    (2) 具有数据流模型的特点:自动容错、位置感知性调度、可伸缩性。...

2018-06-15 18:20:32

阅读数:125

评论数:0

【Spark】Spark性能优化之Whole-stage code generation

一、技术背景    Spark1.x版本中执行SQL语句,使用的是一种最经典,最流行的查询求职策略,该策略主要基于 Volcano Iterator Model(火山迭代模型)。一个查询会包含多个Operator,每个Operator都会实现一个接口,提供一个next()方法,该方法返回Opera...

2018-06-15 14:05:09

阅读数:429

评论数:0

【Spark】Spark2.x版的新特性

一、API    1. 出现新的上下文接口:SparkSession,统一了SQLContext和HiveContext,并且为SparkSession开发了新的流式调用的configuration API    2. 统一了DataFrame和DataSet。DataFrame相当于DataSe...

2018-06-14 19:33:14

阅读数:177

评论数:0

【Spark】源码分析之RDD的生成及stage的切分

一、概述整体的逻辑:RDD的生成从saveAsTextFile()方法入手。saveAsTextFile() --> saveAsHadoopFile() --> 封装hadoopConf,并传入saveAsHadoopDataset()方法 --&am...

2018-06-13 10:07:58

阅读数:188

评论数:0

【Flume】数据采集引擎Flume

一、概述flume是一个高效的、可靠的、可用的分布式海量日志数据收集、聚合、传输的工具。Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and movi...

2018-06-12 21:46:35

阅读数:202

评论数:0

【Spark】源码分析之SparkContext

一、概述SaprkContext非常重要,是Spark提交任务到集群的入口SparkContext中没有main方法,在SparkContext主构造器中,主要做一下四件事情:1. 调用createSparkEnv()创建SparkEnv,SparkEnv中能够得到ActorSystem对象,用于...

2018-06-12 21:11:45

阅读数:64

评论数:0

【Spark】源码分析之spark-submit

在客户端执行脚本sbin/spark-submit的时候,通过cat命令查看源码可以看出,实际上在源码中将会执行bin/spark-class org.apache.spark.deploy.SparkSubmit 。在IDEA导入的Spark-Core的源码进行分析。首先Spark会把初始化的参...

2018-06-12 20:13:31

阅读数:121

评论数:4

【Hadoop故障处理】高可用(HA)环境DataNode问题

【故障背景】NameNode和DataNode进程正常运行,但是网页找不到DataNode,DataNode为空。各个节点机器之间可以ping同主机名。【日志排查】众多日志中找到如下关键点错误信息ERROR org.apache.hadoop.hdfs.server.datanode.DataNo...

2018-06-11 13:37:02

阅读数:84

评论数:0

【Hadoop故障处理】全分布下,DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空

【故障背景】DataNode进程正常启动,但是网页上不显示,并且DataNode节点为空。/etc/hosts   的ip和hostname配置正常,各个机器之间能够ping通。【日志错误信息】2018-06-11 17:29:08,165 INFO org.apache.hadoop.hdfs....

2018-06-11 11:26:26

阅读数:636

评论数:0

【Hadoop故障处理】在高可用(HA)配置下,8088端口无法访问,resourcemanager进程无法启动问题

【故障背景】8088网页打不开,因8088是yarn平台的端口,所以我从yarn开始排查,首先到各个机器上使用jps命令查看yarn的各个节点是否启动,发现虽然有nodemanager进程,但是主节点机器上的resourcemanager进程未启动,使用yarn-daemon.sh start r...

2018-06-10 11:57:21

阅读数:512

评论数:0

【Spark】算子

1. mapWith mapWith(i => i*10)((a,b) => b+2)(拿到分区号)(a是每次取到的RDD中的元素,b接收i*10的结果) 2. flatMapWith类似mapWith,区别在于flatMapWith返回的是一个序列3...

2018-06-02 11:59:26

阅读数:88

评论数:0

【Java】集合遍历--List和Map的多种遍历方式

1. List的两种遍历方式package com.nova.test; import java.util.ArrayList; import java.util.Iterator; import java.util.List; public class ListDemo { public ...

2018-04-08 21:14:18

阅读数:41

评论数:0

【Java】集合概述Collection、Map

Java集合分为Collection和Map,Collection又分为List、Set。 List中有ArrayList、LinkedList和Vector;Set中又分为HashSet和TreeSet。Map中有HashMap和TreeMap。他们的分类结构关系如下:分类结构1. Collec...

2018-04-08 20:40:06

阅读数:28

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭