自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

转载 Hive2.0函数大全(中文版)

Hive2.0函数大全(中文版)摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数  数学函数Return Type

2017-04-17 18:19:36 2634

转载 hive lateral view 与 explode详解

1.explodeThen running the query:SELECT explode(myCol) AS myNewCol FROM myTable;11will produce:  The usage with Maps is similar:SELECT explode(myMap) AS (myMapKey, myMapValue) FROM

2017-04-17 18:17:57 647

原创 hadoop distcp

distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用distcp操作提供指南并阐述它的工作模型。基本使用方法dis

2017-04-17 18:06:53 794

原创 hive map,struct,array

hive array、map、struct使用array[1],array[2],array[3]struct.age struct.namemap['name'],map[name]http://www.cnblogs.com/end/archive/2013/01/17/2863884.htmlhive提供了复合数据类型:Structs: structs内部的数

2015-11-27 16:24:05 452

原创 hive count distinct

select count(distinct user_id) from dm_user where ds=20150701;使用disticnt函数,所有的数据只会shuffle到一个reducer上,导致reducer数据倾斜严重优化后为set mapred.reduce.tasks=50; select count(*) from (select user_id

2015-07-28 10:55:53 4210

原创 SQL Server、Oracle、MySQL和Vertica数据库常用函数对比

SQL Server、Oracle、MySQL和Vertica数据库常用函数对比 Vertica数据库是HP公司新收购的用于BI方面的数据库。 [@more@]SQL Server、Oracle、MySQL和Vertica数据库常用函数对比 Vertica数据库是HP公司新收购的用于BI方面的数据库。 1. 绝对值S:select abs(-1) valueO:select abs(-1)

2015-07-02 17:55:09 2981

原创 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-07-02 17:45:02 376

原创 linux小操作-两个命令

1.chgrp:改变档案所属群组。注:要被改变的组名必须要在/etc/group档案内存在才行,否则会显示错误2.chown:改变档案拥有者3.chmod:改变的档案的权限

2015-07-02 16:39:17 397

原创 Vertica数据库操作

删除主键(Vertica数据库的主键值并不是唯一的):SELECT ANALYZE_CONSTRAINTS('fb_s.c_log');找到key名,再:ALTER TABLE fb_s.c_log DROP CONSTRAINT C_PRIMARY;SELECT ANALYZE_CONSTRAINTS('fb_s.user_info');ALTER TABLE

2015-07-02 16:25:55 1918

原创 更改linux文件的拥有者及用户组(chown和chgrp)

、使用chown命令更改文件拥有者在 shell 中,可以使用chown命令来改变文件所有者。chown命令是change owner(改变拥有者)的缩写。需要要注意的是,用户必须是已经存在系统中的,也就是只能改变为在 /etc/passwd这个文件中有记录的用户名称才可以。chown命令的用途很多,还可以顺便直接修改用户组的名称。此外,如果要连目录下的所有子目录或文件同时更改文件

2015-06-06 11:00:48 1384

原创 spark的优点与理论

轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简洁和丰富表达力;另一方面,Spark很好地利用了Hadoop和Mesos(伯克利        另一个进入孵化器的项目,主攻集群的动态资源管理)的基础设施。虽然很轻,但在容错设计上不打折扣。主创人Matei声称:“不把错误当特例处理。”言下        之意,容错是基础设施的一部

2014-11-14 16:24:44 6704

原创 hive操作

1、insert  into 语句hive> insert into table userinfos2 select id,age,name from userinfos;只是插入,不覆盖原本数据2、insert overwrite语句hive> insert overwrite table userinfos2 select id,age,name from userinfo

2014-11-14 11:22:26 568

原创 sqoop常用命令

1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username dyh -password 0000002、连接mysql并列出数据库中的表sqoop list-tables --connect jdbc:mysql://localhost:3306/test --use

2014-11-14 11:02:50 739

原创 hive常用参数

配套视频课程 第一部分:Hive 参数•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.speculative.ex

2014-11-13 17:59:21 748

原创 sqlserver作业

sqlserver作业:http://jingyan.baidu.com/album/49ad8bce7287315834d8fab4.html?picindex=1

2014-11-13 17:51:11 582

原创 sqlserver备份及还原

http://www.cnblogs.com/gaizai/archive/2011/06/29/2093575.html

2014-11-13 17:33:43 661

转载 sqlserver主从库

网站规模到了一定程度之后,该分的也分了,该优化的也做了优化,但是还是不能满足业务上对性能的要求;这时候我们可以考虑使用主从库。主从库是两台服务器上的两个数据库,主库以最快的速度做增删改操作+最新数据的查询操作;从库负责查询较旧数据,做一些对实效性要求较小的分析,报表生成的工作。这样做将数据库的压力分担到两台服务器上从而保证整个系统响应的及时性。如果还无法满足业务需求,我们就要考虑创建服务器群,这里

2014-11-13 17:19:51 1019

原创 sqlserver索引

SQLServer中的索引有两种:聚集索引和非聚集索引。聚集索引和非聚集索引的区别是在物理数据的存储方式上。

2014-11-13 16:57:03 574

原创 sqlserver分区问题

sqlserver修改user_message分区表分区组和分区文件ALTER DATABASE [BI_Baihe] ADD FILEGROUP [User_MessageFG2015M01]ALTER DATABASE [BI_Baihe] ADD FILEGROUP [User_MessageFG2015M02]ALTER DATABASE [BI_Baihe] ADD FI

2014-11-13 16:29:16 536

原创 hive运行

hive:set mapred.reduce.tasks=150;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;

2014-11-13 16:24:01 470

原创 hadoop运行python

hadoop jar /opt/cloudera/parcels/CDH//hadoop-mapreduce/hadoop-streaming.jar -files /home/wang/mapper.py,/home/wang/reducer.py -D mapred.map.tasks=10 -D mapred.reduce.tasks=1 -input /homehl/word  -outp

2014-11-13 16:20:10 427

转载 solr知识

随着solr版本的不断升级, 差异越来越大, 从以前的 solr1.2 到现在的 solr4.3, 无论是类还是功能都有很大的变换, 为了能及时跟上新版本的步伐, 在此将新版本的使用做一个简单的入门说明: Solr3.6版本     SolrServer实例化类型有httpClient,和本地化,如果Solr服务器不在本地就用httpClient,在本地就用EmbeddedSolrSe

2014-11-13 16:17:43 504

转载 storm知识

做软件开发的都知道模块化思想,这样设计的原因有两方面:一方面是可以模块化,功能划分更加清晰,从“数据采集--数据接入--流失计算--数据输出/存储” 1).数据采集负责从各节点上实时采集数据,选用cloudera的flume来实现2).数据接入由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件来作为缓冲,选用apache的kafka

2014-10-27 15:27:06 496

转载 Hadoop storm知识

一、Storm基本概念在运行一个Storm任务之前,需要了解一些概念:TopologiesStreamsSpoutsBoltsStream groupingsReliabilityTasksWorkersConfigurationStorm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在S

2014-10-27 15:03:09 559

原创 进程处理的各种方法

1) 查看进程的方法: ps -ef  或者 ps auxroot     15087  0.0  0.0      0     0 ?        S    23:31   0:00 [kworker/1:1]root     15219  0.0  0.0      0     0 ?        S    23:36   0:00 [kworker/1:0]root  

2014-10-24 18:02:01 581

转载 flume,kafka,storm学习笔记

Flume-ngFlume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。      Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html 官方的英文文档 介绍的比较全面。       不过这里写写自己的见解这个是flume的架构图 从上图可以看到几个名词:Agent: 一个Agent包含

2014-10-24 16:58:43 774

原创 flume

flume基于Java语言开发,可以进行一些自定义的功能开发。运行Flume时,机器必须安装装JDK6.0以上的版本,并且,Flume目前只有Linux系统的启动脚本,没有Windows环境的启动脚本。             Flume主要由3个重要的组件购成:   Source:完成对日志数据的收集,分成transtion 和 event 打入到channel之中。  

2014-10-24 15:07:56 598

原创 hive优化

hive的udf函数if,case when ,cast,concat,substr等等,没什么可提的,网上大篇。hive的多线程:hive.

2014-10-17 14:10:47 410

原创 kettle安装错误

mysql不支持布尔型数据,改为v

2014-09-23 17:44:16 532

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除