自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 hive sql遇到的问题

某个字段条件过多,查询条件失效select * from login where dt='20130101' and (ver !='3.1' or ver !='3.2' or ver != '4.0' or ver != '5.2');备注:感谢 杨庆荣的指导,这里笔误,其实修改为如下的sql,功能可以实现,该bug纯属作者的错误:select * from log

2014-08-29 10:12:48 643

原创 awk实现group by 功能

[app_usr@ haha]$ lsBOSSNM_0_3032_9069_50_H1_20120315_020_00000011_000.json  BOSSNM_0_3032_9069_50_H1_20120315_020_00000015_000.jsonBOSSNM_0_3032_9069_50_H1_20120315_020_00000012_000.json  BOSSNM_0

2014-08-29 10:08:13 9798

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b

2014-08-29 10:06:14 391

转载 linux\uinux

简介用简单的话来定义tcpdump,就是:dump the traffic on a network,根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。 实用命令实例默认启动tc

2014-08-29 09:59:02 2034

转载 hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2014-08-29 09:41:23 348

转载 Hadoop集群应用于大数据分析优势和挑战

大数据分析在过去几年里非常流行。即便如此,很多组织发现,现有的数据挖掘和分析技术还是不能胜任大数据的处理任务。对于这个问题,一个可能的解决方案就是搭建Hadoop集群,但它并不适合所有情况。让我们了解一下使用Hadoop集群的优缺点。  Hadoop集群是什么?  Hadoop集群是一种专门为存储和分析海量非结构化数据而设计的特定类型的集群。本质上,它是一种计算集群,即将数据分析的

2014-08-27 21:31:16 939

原创 hadoop学习工作总结(一)

hadoop的优点:    高可靠性:hadoop按位存储    高扩展性:hadoop 数据是通过文件系统分布式存储的。    高效性:能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。    高容错性:能自动保存数据的多个副本,并且能够自动将失败的任务重橷分配。hadoop核心:HDFS、MapReduce、HBaseHDFS:当硬件出

2014-08-27 20:57:09 762

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除