- 博客(71)
- 资源 (28)
- 收藏
- 关注
原创 hive3的join数据错误
我们生产使用的hive3.1.2版本,hadoop也是3版本,用户通过使用hive发现join数据错误。分析SQL发现,当3表(含3表)以上,hive join出来的数据是错误。后来我通过测试发现,不管是left join、inner join还是right join,数据都会出现错误,通过后来的其他测试发现,两个表使用in和exists作为条件查询,出来的数据也是错误的。这是hive3的一个重大bug,使用hive3的小心了。 这个bug纠缠了我好久,后来定位出来hive...
2022-03-02 14:34:46 2757 3
原创 大数据遇到的坑
春去秋来,转眼一年又快过去了,这大半年遇到的坑再不记录就忘记了。公司hadoop集群从年初的200台多点到现在的700+,用户越来越多,遇到的坑就越来越多,大坑必须做好熬夜的准备,还好每一次加班都填平了坑。1、hive丢数据了 最近周五将要下班的时候接到同事的电话说一个作业丢数据了将近200万,顿时隐隐感觉不妙,立马投入查看作业日志的进程中。分析作业日志发现临时...
2019-09-21 16:20:40 2710 2
原创 hive使用exists时把join条件放在where条件里,导致第三个join开始的条件都丢失
测试模拟数据准备:test_table1cust_no,name60001,lisa60002,tina60003,kylin60004,jeny60005,john60006,jamsetest_table2cust_no,acct_type60001,160001,160001,260002,160003,260003,3test_table3cust...
2019-04-16 14:40:36 758
原创 org.apache.spark.SparkException: Kryo serialization failed
在sparksql中显示的指定了mapjoin,导致广播的数据量太大,导致序列化超过指定大小。去除显示指定mapjoinsql如下:with einfo as ( select E6.EMP_NO , E6.TEAM_ID , E6.TEAM_NAME ...
2019-02-22 14:11:40 789
原创 sparksql优化之路
最近一直由于公司一个重要的作业,从Tez切换到sparksql,需要对sparksql进行优化。这个表都是left join,慢就慢在join阶段Tez之前根据优化参数,执行时间在7分钟到12分钟之间浮动,sparksql进行一些参数优化,一直在17到24分钟浮动,效率太低。最后查看sparksql的执行时的shuffle阶段发现,每个表参与的shuffle数据量相差很大,最大的612GB,最...
2019-01-14 18:40:06 4108
原创 JVM---第二篇垃圾收集
判断对象是否已死1、引用计数算法:给对象中添加一个引用计数器,每当一个地方引用它时,计数器就加1;当引用失效时,计数器减1;任何时刻计数器为0的对象就是不可能再被使用。引用计数算法的实现简单,判定效率也很高,但是在主流Java虚拟机里面没有使用引用计数算法来管理内存,因为它很难解决对象间相互循环引用的问题2、可达性分析算法:这个算法的基本思路就是通过一系列的称为“GC Roots”
2016-08-02 23:08:53 407
原创 JVM---第一篇内存区域划分
JVM看多次都是容易忘,写此博客来记录自己的所学内存区域划分为线程共享和独立两大部分,线程共享的区域为:方法区、堆、执行引擎和本地方法库;线程独立的:虚拟机栈、本地方法栈和程序计数器线程独立区域1、程序计数器:是一块较小的内存空间,可以看着是当前线程所执行的字节码的行号指令2、虚拟机栈:它的生命周期和线程相同,它描述的是Java方法执行的内存模型,每个方法执行的同时都会创建一个
2016-08-01 23:00:42 497
原创 Flume 采集rsyslog整个配置和流程
使用flume采集web服务器日志,架构见图每台webserver 的agent的配置:#configuration 'flume74Agent'flume74Agent.sources=source74flume74Agent.sinks=sink74-1 sink74-2flume74Agent.channels=channel74#c
2016-01-28 15:07:06 4801
原创 hbase-1.0.2所有配置文件参数
查看HBase所有配置文件参数,可以通过浏览器访问16010(旧版本60010)端口,点击HBase Configuration就能看到所有的配置参数,以下是我获取的配置参数:dfs.journalnode.rpc-address0.0.0.0:8485hdfs-default.xmlio.storefile.bloom.block.size131072hbase-default.xml
2015-12-03 14:37:29 2641
原创 hadoop-2.6.2所有配置文件参数
yarn.fail-fastfalseyarn-default.xmlmapreduce.job.ubertask.enablefalsemapred-default.xmlyarn.resourcemanager.max-completed-applications10000yarn-default.xmlyarn.resourcemanager.delayed.delegation-to
2015-12-03 14:32:29 4567 1
原创 Could not connect to ZooKeeper slave01:2181,slave02:2181,slave03:2181
这是在通过写MapReduce读取HBase的数据,给指定的列加上索引到solr发现的zookeeper.out日志:2015-11-20 16:59:20,603 [myid:3] - WARN [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxnFactory@193] - Too many connections from
2015-11-20 17:20:53 4749
原创 MapTask虚拟内存不足
运行时报错信息:Backend error message---------------------AttemptID:attempt_1431928337591_3554_m_000000_0 Info:Container killed by the ApplicationMaster.Backend error message----------------
2015-10-30 15:17:01 887
原创 Spark的Master和Worker集群启动的源码分析
基于spark1.3.1的源码进行分析spark master启动源码分析1、在start-master.sh调用master的main方法,main方法调用def main(argStrings: Array[String]) { SignalLogger.register(log) val conf = new SparkConf val args =
2015-07-11 22:11:05 2560
原创 Hadoop知识汇总
Hadoop的两大功能:海量数据存储和海量数据分析Hadoop2的三大核心组件是:HDFS、MapperReducer和yarn1、HDFS:分布式文件系统海量数据存储2、MapperReducer:运算框架,海量数据分析3、yarn:资源调度管理集群 HDFS工作机制:基于namenode和datanode1、namenode:响应客户端的请求;负责维护整个
2015-06-27 12:10:30 1075
原创 Hadoop加zookeeper搭建高可靠集群
前期准备1.修改Linux主机名,每台都得配置vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop-server12.修改IP /etc/sysconfig/network-scripts/ifcfg-eth03.修改主机名和IP的映射关系vim /etc/hosts192.168.146.181
2015-06-24 17:59:47 6819 1
原创 Hadoop学习---第四篇Mapreducer里的Partitioner
Partitioner就是对map输出的key进行分组,不同的组可以指定不同的reduce task处理;Partition功能由partitioner的实现子类来实现每写一段代码都会加深理解,程序里记录了自己的理解FlowBean类源码:package cn.zxl.flowcountpartitioner;import java.io.DataInput;import j
2015-05-31 11:03:37 3045 1
原创 Hadoop学习---第三篇Hadoop的第一个Mapreduce程序
Mapreducer程序写了好几个了,但是之前一直都没有仔细的测试过本地运行和集群上运行的区别,今天写了一个Mapreduce程序,在此记录下来。 本地运行注意事项有以下几点:1、本地必须配置好Hadoop的开发环境2、在src里不加入配置文件运行,或者如果本地的src里有mapred-site.xml和yarn-site.xml配置文件,那么mapreduce.framework.n
2015-05-30 21:50:13 1077
原创 Hadoop学习---第二篇搭建Hadoop开发环境
Hadoop集群搭建好了,我们就可以开发了,那么就涉及到Hadoop开发环境的搭建。 Hadoop最好是在Linux系统上的Eclipse里开发,这就能省好多麻烦事。在Linux的Eclipse里开发就只需导入Hadoop的jar包就行,jar包需要哪些根据自己的开发需求而定,不清楚那就导入所有的jar包。因为我们大部分人都习惯了在windows里开发,所以在windows搭建Ha
2015-05-28 20:11:56 744
原创 Hadoop学习---第一篇搭建Hadoop集群
开始学习大数据,为了更好的掌握大数据技术,写此博客来记录自己的学习本环境是基于CentOS6.4 32位,jdk1.7,Hadoop2.4.1搭建1、新建一台虚拟机,安装好Linux CentOS系统 2、修改虚拟机IP地址,用root身份登录:vim /etc/sysconfig/network-scripts/ifcfg-eth0,修改为以下内容然后保存 DEVICE="
2015-05-24 23:09:05 961
原创 Linux学习一----------Linux制作本地yum源
刚刚开始学习,以此作为笔记记录自己所学一、挂载文件把iso文件放到虚拟机里,可以选择共享文件或者通过连接Linux的工具上传上去我的上传在/root/CentOS-6.6-x86_64-bin-DVD1.iso创建挂载地点:mkdir /root/iso挂载镜像文件:mount -o loop /root/CentOS-6.6-x86_64-bin-DVD1.iso /roo
2015-05-18 18:55:03 6040
原创 SQLServer触发器实例
以前没写过SqlServer的触发器,折腾了一天,总算写好了,现在记录一下心得。 SqlServer触发器的语法就不提了,主要记录一下主要事项。每个开始都得有Begin 内容 end ,之前不明白这里,写条件触发折腾了好多遍都是不准确,以下是实例:
2015-02-10 08:32:32 1515
原创 as3.0和js相互调用,js控制flash的颜色
程序应用场景:flash是一副地图,地图上一单击,就调用js,弹出一个对话框,显示一些自己想要的信息;js定时调用as提供的方法,然后去改变flash的颜色。 以下是as代码: import flash.events.MouseEvent;import flash.text.TextField;//给每一栋楼增加监听事件mc0001.addE
2014-09-23 11:31:26 5466
原创 struts2的Action方法无法进去
最近做一个功能,使用了struts2,input标签里的内容是和后台的实体类内容相对应,提交方法时,无法进入action的方法并且程序也不报错,检查N遍方法都没有发现,最终查找发现,是input标签传递了一个String类型的字符串,但是后台的实体类定义的却是int,导致Action请求不走。仔细分析了一下原因是Struts2已经把这些封装起来,有错误,但是他已经catch住,因此不抛错,导致你无
2014-09-18 11:11:58 7989
原创 跨服务器oracle触发器
CREATE DATABASE LINK banklinkname --dblinkname--第一个bank为数据库用户名,第二个bank为数据库的密码--host为远程主机,port为端口-- SERVICE_NAME为本地服务器数据库的sid CONNECT TO bank IDENTIFIED BY bank USING '(DESCRIPTION = (ADDRESS
2014-05-04 14:06:29 1987
转载 myEclipse8.5下SSH2开发时如何删除antlr-2.7.2包 .
SSH2组合完成后,执行hibernate的HQL查询时,报错: java.lang.NoSuchMethodError: antlr.collections.AST.getLine()I 看来是antlr这个语法解析包出错 因为Struts2.1.8.1自带的antlr-2.7.2.jar,比Hibernate3.3自带的antlr-2.7.6.jar的版本要低,故要在build
2014-03-19 09:26:36 1246
原创 Java发送邮件
Java发送邮件主要引入commons-email-1.2.jaractivation-1.1.jarmail-1.4.jar这三个jar包,代码网上很多,运行后会抛出java.lang.NoClassDefFoundError: com/sun/mail/util/BEncoderStream这个异常,解决办法是找到MyEclipse的javaee.jar包,用win
2013-12-13 17:57:34 4392
原创 下拉框联动
onchange="changeCardBillInfo(this.value)"; function changeCardBillInfo(obj){ $.ajax({ url: "subsidyManageAction!getCardBillInfo.action", data : { type:obj }, type
2013-09-26 17:45:55 633
原创 Java调用C#带soapheader的webservice接口
import java.io.ByteArrayOutputStream;import java.io.InputStream;import java.io.OutputStream;import java.net.HttpURLConnection;import java.net.URL;import java.net.URLDecoder;import java.net
2013-09-02 20:09:07 7862
原创 Java调用C++webservice接口
import javax.xml.namespace.QName;import org.apache.axis.client.Call;import org.apache.axis.client.Service; /** * * 功能描述:与联创通讯 * 时间:2013-8-21 * @author:zengxinliang */ public
2013-09-02 20:00:32 4378
原创 web项目修改xml文件
public static void modifyKeyAndKeyDate(String Key){ try { String webPath = CommuOfXj.class.getResource("/").getPath(); webPath = webPath.replace("%20", " "); //得到DOM解析器的工厂实例 Doc
2013-08-20 13:46:20 1615
转载 oracle sql 日期
共三部分:第一部分:oracle sql日期比较:http://www.blogjava.net/forker/archive/2007/09/07/143467.html#Post第二部分:Oracle 获取当前日期及日期格式http://blog.sina.com.cn/s/blog_6168ee920100l2ye.html第三部分:获取昨天:select tru
2013-08-13 19:04:42 836
原创 调用WebService实例
以下是实例地址:http://www.webxml.com.cn/d/44587637472B4E426377453D.aspx
2013-07-25 15:12:56 1121
转载 java处理高并发高负载类网站的优化方法
java处理高并发高负载类网站中数据库的设计方法(java教程,java处理大量数据,java高负载数据)一:高并发高负载类网站关注点之数据库 没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用,数据库的响应是首先要解决的。一般来说MySQL是最常用的,可能最初是一个mysql主机,当数据增加到100万以上,那么,MySQL的效能急剧下降。常用的优化措施是
2013-03-17 22:38:59 12705 1
转载 java高并发解决方案
一个小型的网站,比如个人网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性能的要求都很简单,随着互联网业务的不断丰富,网站相关的技术经过这些年的发展,已经细分到很细的方方面面,尤其对于大型网站来说,所采用的技术更是涉及面非常广,从硬件到软件、编程语言、数据库、WebServer、防火墙等各个领域都有了很高的要求,已经不是
2012-12-31 09:46:55 54890 6
转载 Struts2中Session的使用
在Struts2里,如果需要在Action中使用session,可以通过下面两种方式得到 1.通过ActionContext class中的方法getSession得到 2.Action实现org.apache.struts2.interceptor.SessionAware接口的方式来对session进行操作 下面先看一个采用第一种方式,在action中得到sessi
2012-12-31 09:25:07 1126
转载 学习struts2拦截器非常好的一个例子(转载)
actions 包里的类 (2个 action ,一个拦截器) 1.CheckLoginInterceptor package cn.com.lzpeng.actions;import java.util.Map;import com.opensymphony.xwork2.Action;import com.opensymphony.xwork2.ActionInvoca
2012-12-31 09:21:01 769
hive systemctl启停hiveserver2和metastore服务.pdf
2021-07-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人