磊子-许-CSDN博客

转载 Hive2.0函数大全(中文版)

Hive2.0函数大全(中文版)摘要Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数Return Type

2017-04-17 18:19:36 2641

转载 hive lateral view 与 explode详解

1.explodeThen running the query:SELECT explode(myCol) AS myNewCol FROM myTable;11will produce: The usage with Maps is similar:SELECT explode(myMap) AS (myMapKey, myMapValue) FROM

2017-04-17 18:17:57 653

原创 hadoop distcp

distcp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的地方。这篇文档会为常用distcp操作提供指南并阐述它的工作模型。基本使用方法dis

2017-04-17 18:06:53 805

原创 hive map,struct,array

hive array、map、struct使用array[1],array[2],array[3]struct.age struct.namemap['name'],map[name]http://www.cnblogs.com/end/archive/2013/01/17/2863884.htmlhive提供了复合数据类型：Structs： structs内部的数

2015-11-27 16:24:05 457

原创 hive count distinct

select count(distinct user_id) from dm_user where ds=20150701;使用disticnt函数，所有的数据只会shuffle到一个reducer上，导致reducer数据倾斜严重优化后为set mapred.reduce.tasks=50; select count(*) from (select user_id

2015-07-28 10:55:53 4220

原创 SQL Server、Oracle、MySQL和Vertica数据库常用函数对比

SQL Server、Oracle、MySQL和Vertica数据库常用函数对比 Vertica数据库是HP公司新收购的用于BI方面的数据库。 [@more@]SQL Server、Oracle、MySQL和Vertica数据库常用函数对比 Vertica数据库是HP公司新收购的用于BI方面的数据库。 1. 绝对值S:select abs(-1) valueO:select abs(-1)

2015-07-02 17:55:09 2992

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-07-02 17:45:02 381

原创 linux小操作-两个命令

1.chgrp：改变档案所属群组。注：要被改变的组名必须要在/etc/group档案内存在才行，否则会显示错误2.chown：改变档案拥有者3.chmod：改变的档案的权限

2015-07-02 16:39:17 403

原创 Vertica数据库操作

删除主键（Vertica数据库的主键值并不是唯一的）：SELECT ANALYZE_CONSTRAINTS('fb_s.c_log');找到key名，再：ALTER TABLE fb_s.c_log DROP CONSTRAINT C_PRIMARY;SELECT ANALYZE_CONSTRAINTS('fb_s.user_info');ALTER TABLE

2015-07-02 16:25:55 1930

原创更改linux文件的拥有者及用户组(chown和chgrp)

、使用chown命令更改文件拥有者在 shell 中，可以使用chown命令来改变文件所有者。chown命令是change owner（改变拥有者）的缩写。需要要注意的是，用户必须是已经存在系统中的，也就是只能改变为在 /etc/passwd这个文件中有记录的用户名称才可以。chown命令的用途很多，还可以顺便直接修改用户组的名称。此外，如果要连目录下的所有子目录或文件同时更改文件

2015-06-06 11:00:48 1389

原创 spark的优点与理论

轻：Spark 0.6核心代码有2万行，Hadoop 1.0为9万行，2.0为22万行。一方面，感谢Scala语言的简洁和丰富表达力；另一方面，Spark很好地利用了Hadoop和Mesos（伯克利另一个进入孵化器的项目，主攻集群的动态资源管理）的基础设施。虽然很轻，但在容错设计上不打折扣。主创人Matei声称：“不把错误当特例处理。”言下之意，容错是基础设施的一部

2014-11-14 16:24:44 6720

原创 hive操作

1、insert into 语句hive> insert into table userinfos2 select id,age,name from userinfos;只是插入，不覆盖原本数据2、insert overwrite语句hive> insert overwrite table userinfos2 select id,age,name from userinfo

2014-11-14 11:22:26 571

原创 sqoop常用命令

1、列出mysql数据库中的所有数据库 sqoop list-databases --connect jdbc:mysql://localhost:3306/ -username dyh -password 0000002、连接mysql并列出数据库中的表sqoop list-tables --connect jdbc:mysql://localhost:3306/test --use

2014-11-14 11:02:50 745

原创 hive常用参数

配套视频课程第一部分：Hive 参数•说明：所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明：是否为自动分区•默认值：falsehive.mapred.reduce.tasks.speculative.ex

2014-11-13 17:59:21 758

原创 sqlserver作业

sqlserver作业：http://jingyan.baidu.com/album/49ad8bce7287315834d8fab4.html?picindex=1

2014-11-13 17:51:11 590

原创 sqlserver备份及还原

http://www.cnblogs.com/gaizai/archive/2011/06/29/2093575.html

2014-11-13 17:33:43 675

网站规模到了一定程度之后，该分的也分了，该优化的也做了优化，但是还是不能满足业务上对性能的要求；这时候我们可以考虑使用主从库。主从库是两台服务器上的两个数据库，主库以最快的速度做增删改操作+最新数据的查询操作;从库负责查询较旧数据，做一些对实效性要求较小的分析，报表生成的工作。这样做将数据库的压力分担到两台服务器上从而保证整个系统响应的及时性。如果还无法满足业务需求，我们就要考虑创建服务器群，这里

2014-11-13 17:19:51 1073

原创 sqlserver索引

SQLServer中的索引有两种：聚集索引和非聚集索引。聚集索引和非聚集索引的区别是在物理数据的存储方式上。

2014-11-13 16:57:03 575

原创 sqlserver分区问题

sqlserver修改user_message分区表分区组和分区文件ALTER DATABASE [BI_Baihe] ADD FILEGROUP [User_MessageFG2015M01]ALTER DATABASE [BI_Baihe] ADD FILEGROUP [User_MessageFG2015M02]ALTER DATABASE [BI_Baihe] ADD FI

2014-11-13 16:29:16 558

原创 hive运行

hive：set mapred.reduce.tasks=150;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;

2014-11-13 16:24:01 476

原创 hadoop运行python

hadoop jar /opt/cloudera/parcels/CDH//hadoop-mapreduce/hadoop-streaming.jar -files /home/wang/mapper.py,/home/wang/reducer.py -D mapred.map.tasks=10 -D mapred.reduce.tasks=1 -input /homehl/word -outp

2014-11-13 16:20:10 435

转载 solr知识

随着solr版本的不断升级, 差异越来越大, 从以前的 solr1.2 到现在的 solr4.3, 无论是类还是功能都有很大的变换, 为了能及时跟上新版本的步伐, 在此将新版本的使用做一个简单的入门说明: Solr3.6版本 SolrServer实例化类型有httpClient，和本地化，如果Solr服务器不在本地就用httpClient，在本地就用EmbeddedSolrSe

2014-11-13 16:17:43 510

转载 storm知识

做软件开发的都知道模块化思想，这样设计的原因有两方面：一方面是可以模块化，功能划分更加清晰，从“数据采集--数据接入--流失计算--数据输出/存储” 1）.数据采集负责从各节点上实时采集数据，选用cloudera的flume来实现2）.数据接入由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，选用apache的kafka

2014-10-27 15:27:06 506

转载 Hadoop storm知识

一、Storm基本概念在运行一个Storm任务之前，需要了解一些概念：TopologiesStreamsSpoutsBoltsStream groupingsReliabilityTasksWorkersConfigurationStorm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs，而在S

2014-10-27 15:03:09 567

原创进程处理的各种方法

1）查看进程的方法： ps -ef 或者 ps auxroot 15087 0.0 0.0 0 0 ? S 23:31 0:00 [kworker/1:1]root 15219 0.0 0.0 0 0 ? S 23:36 0:00 [kworker/1:0]root

2014-10-24 18:02:01 591

转载 flume,kafka,storm学习笔记

Flume-ngFlume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html 官方的英文文档介绍的比较全面。不过这里写写自己的见解这个是flume的架构图从上图可以看到几个名词：Agent: 一个Agent包含

2014-10-24 16:58:43 780

原创 flume

flume基于Java语言开发，可以进行一些自定义的功能开发。运行Flume时，机器必须安装装JDK6.0以上的版本，并且，Flume目前只有Linux系统的启动脚本，没有Windows环境的启动脚本。 Flume主要由3个重要的组件购成： Source:完成对日志数据的收集，分成transtion 和 event 打入到channel之中。

2014-10-24 15:07:56 607

原创 hive优化

hive的udf函数if,case when ,cast,concat,substr等等，没什么可提的，网上大篇。hive的多线程：hive.

2014-10-17 14:10:47 417

原创 kettle安装错误

mysql不支持布尔型数据，改为v

2014-09-23 17:44:16 539

xuhualei88的专栏