亮仔的专栏

技术改变人生

hive使用exists时把join条件放在where条件里,导致第三个join开始的条件都丢失

测试模拟数据准备: test_table1 cust_no,name 60001,lisa 60002,tina 60003,kylin 60004,jeny 60005,john 60006,jamse test_table2 cust_no,acct_type 60001,1 60001,...

2019-04-16 14:40:36

阅读数 25

评论数 0

org.apache.spark.SparkException: Kryo serialization failed

在sparksql中显示的指定了mapjoin,导致广播的数据量太大,导致序列化超过指定大小。去除显示指定mapjoin sql如下: with einfo as     (        select            E6.EMP_NO    ,            E6....

2019-02-22 14:11:40

阅读数 51

评论数 0

sparksql优化之路

最近一直由于公司一个重要的作业,从Tez切换到sparksql,需要对sparksql进行优化。这个表都是left join,慢就慢在join阶段 Tez之前根据优化参数,执行时间在7分钟到12分钟之间浮动,sparksql进行一些参数优化,一直在17到24分钟浮动,效率太低。最后查看spark...

2019-01-14 18:40:06

阅读数 395

评论数 0

JVM---第二篇垃圾收集

判断对象是否已死 1、引用计数算法:给对象中添加一个引用计数器,每当一个地方引用它时,计数器就加1;当引用失效时,计数器减1;任何时刻计数器为0的对象就是不可能再被使用。引用计数算法的实现简单,判定效率也很高,但是在主流Java虚拟机里面没有使用引用计数算法来管理内存,因为它很难解决对象间相互循环...

2016-08-02 23:08:53

阅读数 323

评论数 0

JVM---第一篇内存区域划分

JVM看多次都是容易忘,写此博客来记录自己的所学 内存区域划分为线程共享和独立两大部分,线程共享的区域为:方法区、堆、执行引擎和本地方法库;线程独立的:虚拟机栈、本地方法栈和程序计数器 线程独立区域 1、程序计数器:是一块较小的内存空间,可以看着是当前线程所执行的字节码的行号指令 2、...

2016-08-01 23:00:42

阅读数 360

评论数 0

Flume 采集rsyslog整个配置和流程

使用flume采集web服务器日志,架构见图 每台webserver 的agent的配置: #configuration 'flume74Agent' flume74Agent.sources=source74 flume74Agent.sinks=sink74-1 sink7...

2016-01-28 15:07:06

阅读数 4315

评论数 0

hbase-1.0.2所有配置文件参数

查看HBase所有配置文件参数,可以通过浏览器访问16010(旧版本60010)端口,点击HBase Configuration就能看到所有的配置参数,以下是我获取的配置参数: dfs.journalnode.rpc-address0.0.0.0:8485hdfs-default.xml io...

2015-12-03 14:37:29

阅读数 2155

评论数 0

hadoop-2.6.2所有配置文件参数

yarn.fail-fastfalseyarn-default.xml mapreduce.job.ubertask.enablefalsemapred-default.xml yarn.resourcemanager.max-completed-applications10000yarn-def...

2015-12-03 14:32:29

阅读数 3849

评论数 1

Could not connect to ZooKeeper slave01:2181,slave02:2181,slave03:2181

这是在通过写MapReduce读取HBase的数据,给指定的列加上索引到solr发现的 zookeeper.out日志: 2015-11-20 16:59:20,603 [myid:3] - WARN  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NI...

2015-11-20 17:20:53

阅读数 3525

评论数 0

MapTask虚拟内存不足

运行时报错信息: Backend error message --------------------- AttemptID:attempt_1431928337591_3554_m_000000_0 Info:Container killed by the ApplicationMaster. ...

2015-10-30 15:17:01

阅读数 522

评论数 0

Spark的Master和Worker集群启动的源码分析

基于spark1.3.1的源码进行分析 spark master启动源码分析 1、在start-master.sh调用master的main方法,main方法调用 def main(argStrings: Array[String]) {     SignalLogger.register...

2015-07-11 22:11:05

阅读数 2369

评论数 0

Hadoop知识汇总

Hadoop的两大功能:海量数据存储和海量数据分析 Hadoop2的三大核心组件是:HDFS、MapperReducer和yarn 1、HDFS:分布式文件系统海量数据存储 2、MapperReducer:运算框架,海量数据分析 3、yarn:资源调度管理集群         HDFS工作机制:基...

2015-06-27 12:10:30

阅读数 957

评论数 0

Hadoop加zookeeper搭建高可靠集群

前期准备 1.修改Linux主机名,每台都得配置 vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop-server1 2.修改IP /etc/sysconfig/network-scripts/ifcfg-eth0 ...

2015-06-24 17:59:47

阅读数 6502

评论数 1

Hadoop学习---第四篇Mapreducer里的Partitioner

Partitioner就是对map输出的key进行分组,不同的组可以指定不同的reduce task处理; Partition功能由partitioner的实现子类来实现 每写一段代码都会加深理解,程序里记录了自己的理解 FlowBean类源码: package cn.zxl.flowcountp...

2015-05-31 11:03:37

阅读数 2800

评论数 1

Hadoop学习---第三篇Hadoop的第一个Mapreduce程序

Mapreducer程序写了好几个了,但是之前一直都没有仔细的测试过本地运行和集群上运行的区别,今天写了一个Mapreduce程序,在此记录下来。  本地运行注意事项有以下几点: 1、本地必须配置好Hadoop的开发环境 2、在src里不加入配置文件运行,或者如果本地的src里有mapred-si...

2015-05-30 21:50:13

阅读数 912

评论数 0

Hadoop学习---第二篇搭建Hadoop开发环境

Hadoop集群搭建好了,我们就可以开发了,那么就涉及到Hadoop开发环境的搭建。        Hadoop最好是在Linux系统上的Eclipse里开发,这就能省好多麻烦事。在Linux的Eclipse里开发就只需导入Hadoop的jar包就行,jar包需要哪些根据自己的开发需求而定,不清楚...

2015-05-28 20:11:56

阅读数 602

评论数 0

Hadoop学习---第一篇搭建Hadoop集群

开始学习大数据,为了更好的掌握大数据技术,写此博客来记录自己的学习 本环境是基于CentOS6.4 32位,jdk1.7,Hadoop2.4.1搭建 1、新建一台虚拟机,安装好Linux CentOS系统  2、修改虚拟机IP地址,用root身份登录:vim /etc/sysconfig/n...

2015-05-24 23:09:05

阅读数 862

评论数 0

Linux学习一----------Linux制作本地yum源

刚刚开始学习,以此作为笔记记录自己所学 一、挂载文件 把iso文件放到虚拟机里,可以选择共享文件或者通过连接Linux的工具上传上去 我的上传在/root/CentOS-6.6-x86_64-bin-DVD1.iso 创建挂载地点:mkdir  /root/iso 挂载镜像文件:moun...

2015-05-18 18:55:03

阅读数 5720

评论数 0

Spring集成XFire的WebService实例

废话不说,直接来代码 Web.xml代码

2015-04-21 15:10:26

阅读数 5964

评论数 0

SQLServer触发器实例

以前没写过SqlServer的触发器,折腾了一天,总算写好了,现在记录一下心得。        SqlServer触发器的语法就不提了,主要记录一下主要事项。每个开始都得有Begin  内容  end   ,之前不明白这里,写条件触发折腾了好多遍都是不准确,以下是实例:

2015-02-10 08:32:32

阅读数 927

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭