张兆坤

路漫漫其修远兮,吾将上下而求索

排序:
默认
按更新时间
按访问量

Kylin中Segments overlap的解决办法

        我们公司的有初具规模的Hadoop、Spark集群,用来做离线数据统计与分析。今年初引入Kylin来进行成熟业务的与计算,当然用Hbase来存储Kylin的结果数据了。由于业务数据规模增长较快,处理日志的时候越来越慢了,于昨日进行部分硬件升级。升级过程中,直接是将hadoop等集群...

2017-11-01 22:54:36

阅读数:1602

评论数:6

用eclispe来调试Kafka源代码

我是看好Scala的,毕竟Kafka、Spark这两个大招太牛了,你想不用它都不行,所以Scala肯定会红火起来的! 看了2周的Scala了,Kafka也用了好几年了,终于可以把Kafka的源代码下下来,看看到底是何方圣神了!

2016-05-28 09:52:51

阅读数:2600

评论数:0

spark初体验

现在这个美好的时代,作为一个技术人,如果连Spark的大名都不知道,那显然是说不过去的,话说大数据的时候,必提Hadoop、Spark。我跟进Spark也好些日子,这次用最新搭建的Hadoop实验集群用最新的Spark来体验了一把酸甜苦辣!

2016-03-31 23:31:28

阅读数:6000

评论数:0

hadoop-2.7.2+hive 2.0.0采用LZO压缩的坑好深

一句话,hive-2.0.0没法应用到LZO文件的分片,无论多大的文件,都还是当成一个再来该干嘛干嘛!话说,hadoop-lzo.jar根本就没有被用到,当然没有这个,提交JOB的时候就会错了,但是真的等到JOB+TASK都跑的时候,LZO文件就不分片了。hive-2.0.0相比之前的版本已经大变...

2016-03-24 00:03:32

阅读数:4182

评论数:0

在Centos下hadoop native-library错误

hadoop-2.7.3 + Centos 6.7 64位环境下使用弄一套Hadoop环境过程的中使用 hadoop checknative -a来检查环境支持Hadoop native 的状态。

2016-03-21 23:23:32

阅读数:4818

评论数:0

记一次Redis的异常分析

最近线上环境偶尔在零点过后的时候就会报Redis的异常,出现好几种错误,并且持续时间在1-3分钟之间,并不固定,报的错误也有3种,表现各不相同,很是诡异。

2015-12-12 21:43:34

阅读数:6016

评论数:0

Cassandra,我又回来了

早在2010年中的时候,我就对Casandra特别感兴趣,那时候还是0.7版本,累计2个月每天晚上都花2小时来啃源代码,读写流程都调试N遍了,也整出来几篇小文,不过后台工作方向上最终没有它的用武之地,后面就慢慢没有再持续更进了。这个差不多5年以后的现在,有些场景觉得Cassandra很合适,就又把...

2015-11-29 23:49:12

阅读数:5066

评论数:3

使用elasticsearch与kibana来分析nginx日志小结

最近由于项目中有很多业务功能需要借助搜索引擎才能实现(比如有业务是按照User_ID分表,但是又需要在部分地方采用entity_id的维度查询,为了避免同一业务数据需要存储两份导致一序列的问题,这样的问题就用搜索引擎来实现),甚至也想把所有涉及到DB使用like的操作用elasticsearch来...

2015-08-11 23:05:33

阅读数:4517

评论数:0

Sqoop1.4.5+hadoop2.2.0进行Mysql到HDFS的数据转换

正如上一篇记录的那样,采用sqoop1.99.4 + hadoop2.2.0来将mysql的表数据导入到HDFS的时候,死活没有找到如何制定字段分隔符号,这才有了试用sqoop1.4.5这番折腾。从架构上来将,Sqoop2确实在安全性等方面有很好的提升,但是Sqoop2目前还不推荐在生产环境中使用...

2015-03-16 22:32:44

阅读数:9922

评论数:1

用Sqoop2在Mysql和hadoop导入导出数据

最近在做用户刷赞排除逻辑的时候,需要结合nginx的access.log日志和Mysql中的部分记录联合查询才能做到,之前的nginx日志一直存放在hadoop中,mysql的数据则没有导入到hadoop中去过,要搞定这事还得将Mysql中的一些表导入到HDFS中去才成。虽说Sqoop的大名早已经...

2015-03-14 09:40:25

阅读数:21338

评论数:2

jmap的几个操作要慎用

最近中大招了,前一周开始偶尔在线上发现一些请求时长竟长达7秒,甚至在部分时段系统存在周期性的请求失败或者超时,各种招式都使用了还是不知道确定的原因,百思不得其解,头大的很!昨日晚上发现这个问题简直太严重了,必须要立刻马上处理掉,一会都耽误不得,遂持续奋斗到晚上一点多,早晨7掂掇又跑起来搞,用各种手...

2015-01-31 20:30:00

阅读数:5629

评论数:1

SPARK入门参考

http://shiyanjun.cn/archives/744.html

2014-09-30 07:35:42

阅读数:1627

评论数:0

《ArchSummit深圳2014大会》所见所闻小结

参加了2天的AS2014,回来累得像猪一样,晚上9点多倒头就睡了! 既然去了,好歹总要有一点收获吧,这不,现在就在造总结了,趁现在头脑还清醒,多少还有些记忆,赶紧记录下来! (1)18号上午 1、18号上午,第一个是章文嵩博士的《构建大型云计算平台分布式技术的实践》,这个太高大上了,与我的领...

2014-07-22 00:04:26

阅读数:2223

评论数:0

hbase-0.98.3小试牛刀

最近一直在考虑统计分析的基础数据、中间shuju

2014-06-29 23:30:26

阅读数:4053

评论数:0

Rails的安装要知道的那些事

想安装redmine,由于要yila [root@lrts25 rubygems-2.2.2]# gem install  rails ERROR:  Could not find a valid gem 'rails' (>= 0), here is why:           U...

2014-05-31 09:36:28

阅读数:8794

评论数:1

hive使用案例

(1)UDF 开发与使用实

2014-05-25 15:36:57

阅读数:8801

评论数:0

Hadoop2.2.0基于QJM的HA实践

日志分析集群已经搭建起来了,但是我总觉得NN没有采用HA是一个大大的隐忧,让我一直不敢把测试集群正式投入使用,总是担心把大批量的日志文件弄过来后,NN挂掉或者硬盘故障的话那就什么都白费工夫,遂决定要把NN的HA也搞起来。 Hadoop2.2.0的NN的HA目前有两种方式,贫民的方式自然是QJM了,...

2014-01-05 22:44:40

阅读数:7250

评论数:8

为MySQL选择合适的备份方式

为MySQL选择合适的备份方式 2013年-05月-31日 16:01:00 数据库的备份是极其重要的事情。如果没有备份,遇到下列情况就会抓狂: UPDATE or DELETE whitout where… table was DROPPed accidentally...

2013-12-28 19:46:18

阅读数:1689

评论数:0

Hadoop2.2.0+hive使用LZO压缩那些事

废话不多说,我在apache Hadoop2.2.0测试集群上配置支持使用LZO进行压缩的时候,遇到很多坑,不过最后到搞定了,这里把具体过程记录下来,以供参考。 环境: Centos6.4 64位 Hadoop2.2.0 Sun JDK1.7.0_45 hive-0.12.0 准备工作: yum...

2013-12-27 00:02:18

阅读数:11464

评论数:6

linux动态库lib和inlcude 加载方法

转载自:http://blog.csdn.net/l_yangliu/article/details/9053087        众所周知,Linux动态库的默认搜索路径是/lib和/usr/lib。动态库被创建后,一般都复制到这两个目录中。当程序执行时需要某动态库,并且该动态库还未加载到...

2013-12-25 22:07:06

阅读数:1499

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭