自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

遥望......

与人为善,好聚好散

  • 博客(23)
  • 资源 (12)
  • 收藏
  • 关注

转载 7 hidden AWS costs that could be killing your budget

The AWS Elastic Compute Cloud (EC2) service has many advantages, including easy scalability, pay-for-what-you-use, as-you-go pricing, and an enormous array of options and upgrades – so many that your ...

2019-09-22 21:26:00 157

转载 A Complete Guide to Writing Hive UDF

Note that this guide is quite old (it was written when Hive was at version 0.10) and might not apply as-isto recent Hive releases. Use at your own risk :)Dataiku DSSprovides deep integration with ...

2019-09-20 21:42:19 296

转载 Hive UDAF开发--个人补充理解

总结hive的比较难的部分应该就是GenericUDAF,看了两天终于看明白了,有些点是我自己遇到卡住的点,记录下来希望对大家有所帮助。一开始看的是《Hive 编程指南》中关于GenericUDAF的章节,例子有点难了。讲的是group_concat的实现。查了资料后觉得网上写的博客非常好,例子比较简单,更能够明白到底在说什么。一定要结合MapReduce的过程来看,才会想明白。不要...

2019-09-19 14:45:54 178

转载 Hive中ObjectInspector的作用

Serde是什么:Serde实现数据序列化和反序列化以及提供一个辅助类ObjectInspector帮助使用者访问需要序列化或者反序列化的对象。Serde层构建在数据存储和执行引擎之间,实现数据存储+中间数据存储和执行引擎的解耦。//主要实现数据的序列化和反序列化。publicabstractclassAbstractSerDeimplementsSerDe{p...

2019-09-19 14:44:27 907

转载 spark sql 在饿了么的应用实践

背景介绍目前"饿了么"spark主要应用在streaming、ETL和ML场景上,本文主要是分享我们ETL场景从hive SQL到spark SQL的迁移实践。在整个迁移过程中我们把线上多个版本的spark(1.5.2,1.6.3)统一推动升级到2.1.1,同时从Standalone运行模式迁移到了On YARN模式,以减少我们的维护成本。在安全控制上我们参考hive的权限系统开发了统一的权限...

2019-09-19 10:03:44 286

转载 Long-running Spark Streaming Jobs on YARN Cluster

A long-running Spark Streaming job, once submitted to the YARN cluster should run forever until it is intentionally stopped. Any interruption introduces substantial processing delays and could lead to...

2019-09-17 23:52:08 336

转载 [Hive]编写non-deterministic的UDF时遇到的谓词下推(Predicate pushdown)错误分析

遇到这样一个问题:hive> desc ljn001;OKname stringvalue inthive> select * from ljn001;OKwang5 92zhang3 87li4 73然后我想使用UDF实现的分析函数row_number去查询value最小的name。如果不清楚UDF实现row_number的原...

2019-09-17 15:29:02 624

转载 Hive 通过关闭CBO (Cost based Optimizer) 来优化特定的SQL执行

Hive 自0.14.0开始,加入了一项”Cost based Optimizer”来对HQL执行计划进行优化,这个功能通过”hive.cbo.enable”来开启。在Hive 1.1.0之后,这个feature是默认开启的,它可以自动优化HQL中多个JOIN的顺序,并选择合适的JOIN算法Join reordering and join algorithm selection are few...

2019-09-17 15:20:37 1672

原创 查看parquet文件格式内容

1. 下载对应的parquet-tools jar:http://logservice-resource.oss-cn-shanghai.aliyuncs.com/tools/parquet-tools-1.6.0rc3-SNAPSHOT.jar?spm=5176.doc52798.2.7.H3s2kL&file=parquet-tools-1.6.0rc3-SNAPSHOT.jarg...

2019-09-14 22:07:40 8127

转载 spark使用supervisor守护进程

Install$ sudo apt-get install supervisor配置使用默认路径下配置(/etc/supervisord.conf) 指定目录supervisord.conf配置; supervisor config file[unix_http_server]file=/home/hadoop/supervisor/supervisor.sock ...

2019-09-10 16:36:53 957

原创 hive udf报gc异常

在编写实现udf函数时,在小批量数据是没有问题的,一旦数据量多就报错,仔细看日志有gc异常,后来经过排查,发现是udf包太大导致的问题,去除了一些不必要的依赖之后变得正常。下面是写的一个时间戳转任意时区的udf函数功能1.获取北京时间yyyy-MM-dd格式的时间selectts2day();-------2019-09-102.获取指定时间戳的北京时间yyyy-MM-dd格式的时间...

2019-09-10 16:00:45 354

转载 spark thrift server 查询日志留存

spark thrift server的web ui在运行时可以看到sql查询的提交用户,执行sql等信息image.pngimage.png但是当这个实例停掉或者异常终止以后,你再去spark history server的webui去查看,发现这部分信息就没有了……image.png究其原因,原来spark thrift server并没有将这部分数...

2019-09-08 23:14:34 815

转载 Hive性能调优总结

一、Fetch抓取1、理论分析Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conver...

2019-09-08 19:48:37 375

转载 hive msck repair table

Recover Partitions (MSCK REPAIR TABLE)Hive stores a list of partitions for each table in its metastore. If, however, new partitions are directly added to HDFS (say by usinghadoop fs -putcommand) o...

2019-09-08 17:10:46 948

转载 spark如何开启HTTP模式

1. HDFS配置:hadoop.proxyuser.HTTP.groups=*hadoop.proxyuser.knox.groups=*hadoop.proxyuser.knox.hosts=*2. Spark中:hive.server2.transport.mode binary修改为http...

2019-09-06 23:09:44 931

转载 Hive性能调优

1.设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggregation operation),是指在group by语句之前执行的聚合操作。例如,hive&g...

2019-09-06 10:24:46 333

转载 Oozie的简单使用

1、Oozie的介绍Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Hive等任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat中。Oozie以action为基本任务单位,可以将多个action构成一个DAG图(有向无环图Direct Acyclic Graph)的模式进行运行。Oozie工作流通过H...

2019-09-05 23:26:51 579

原创 mysql插入特殊字符乱码

在使用AWS的rds数据库时,往mysql插入数据的时候,遇到emjo这种笑脸字符的时候会报如下错误:Incorrectstringvalue:'\xF0\x9F\x98\xB4'forcolumn'brand'atrow1解决方式:找到对应数据库实例的参数组,如果建数据库的时候用的是默认的参数组则是无法修改的,这个时候需要重新新建个参数组,最重要一点是需要修改f...

2019-09-05 18:18:57 1009

原创 oozie在hue里支持多个用户提交scheduler任务

我们在使用aws的emr自带的hue+oozie服务时,遇到一个诡异的问题,描述如下:我们的hue有多个账号,每个用户都可以执行workflow并提交scheduler,但是会报一个错误:Cann't submit scheduler先查了一通oozie的日志,未发现明显问题,随后将问题定位到hue,查看了hue日志,果然有报错:WebHdfsException: 403 Client E...

2019-09-05 16:45:02 1077

原创 hive sql 自动根据时区转换

selectdate_format(from_utc_timestamp(1567640142000,"UTC"),'yyyy-MM-dd')aslocal_time2019-09-04selectdate_format(from_utc_timestamp(1567640142000,"GMT+8"),'yyyy-MM-dd')aslocal_time2019-09-05...

2019-09-05 09:55:55 6438

原创 oozie java.lang.illegalargumentexception stream exceeds limit 2 048

在oozie-site.xml中修改以下值 <property> <name>oozie.servlet.CallbackServlet.max.data.len</name> <value>2048</value> <description> ...

2019-09-05 01:16:48 681

转载 Hive JDBC连接Tez(AM)容器长期不释放问题的解决方法

问题有这样一个问题是很常见的:如果我们的Hive使用默认使用Tez作为执行引擎,当我们使用IDE通过Hive JDBC连接时,会出现在一个很“有趣”的想象:即如果我们不断开这个JDBC连接,则在Yarn上会持续有有一个Tez的AM容器持续存在,只有当端开JDBC连接时,这个容器才会被释放。关于Tez在Yarn的资源布局,可参考这篇文章:https://zh.hortonworks.com/blo...

2019-09-04 21:58:16 1295

原创 spark 根据parquet文件 建表

def save_table(spark: SparkSession, partitionCondition:String, path: String, database: String, table_name: String, save_format: String = "PARQUET"): Unit = { val df: DataFrame = spark.read.parquet(...

2019-09-02 10:28:15 1326

机器学习:实用案例解析(R语言)

目前网上很多都是sample版本的,这本是机器学习:实用案例解析的中文版本,带完整书签,内容非常好,看过的都知道!强烈建议购买纸质书

2014-08-22

数据挖掘数据分析面试题

数据挖掘数据分析面试题,实用便捷,有一定参考价值,网上搞来的

2014-08-22

R参考卡片资料

R参考卡片

2014-07-11

C/C++程序员面试宝典

C/C++程序员面试宝典C/C++程序员面试宝典C/C++程序员面试宝典C/C++程序员面试宝典C/C++程序员面试宝典C/C++程序员面试宝典

2011-05-02

基数排序过程及程序基数排序过程及程序

基数排序过程及程序基数排序过程及程序基数排序过程及程序基数排序过程及程序

2011-04-16

百度笔试题详细及解答

百度笔试题详细及解答百度笔试题详细及解答百度笔试题详细及解答百度笔试题详细及解答

2011-04-16

百度笔试题---数据库

百度笔试题---数据库百度笔试题---数据库百度笔试题---数据库百度笔试题---数据库

2011-04-16

百度2010校园招聘 web前端开发笔试题

005t百度2010校园招聘 web前端开发笔试题005t百度2010校园招聘 web前端开发笔试题

2011-04-16

百度技术招聘笔试题目

百度技术招聘笔试题目 百度技术招聘笔试题目 百度技术招聘笔试题目

2011-04-16

百度技术招聘笔试题目

百度技术招聘笔试题目百度技术招聘笔试题目百度技术招聘笔试题目

2011-04-16

百度技术招聘笔试题目

百度程序设计笔试题百度程序设计笔试题百度程序设计笔试题

2011-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除