2019年09月_玉羽凌风

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 7 hidden AWS costs that could be killing your budget

The AWS Elastic Compute Cloud (EC2) service has many advantages, including easy scalability, pay-for-what-you-use, as-you-go pricing, and an enormous array of options and upgrades – so many that your ...

2019-09-22 21:26:00 157

转载 A Complete Guide to Writing Hive UDF

Note that this guide is quite old (it was written when Hive was at version 0.10) and might not apply as-isto recent Hive releases. Use at your own risk :)Dataiku DSSprovides deep integration with ...

2019-09-20 21:42:19 296

转载 Hive UDAF开发--个人补充理解

总结hive的比较难的部分应该就是GenericUDAF，看了两天终于看明白了，有些点是我自己遇到卡住的点，记录下来希望对大家有所帮助。一开始看的是《Hive 编程指南》中关于GenericUDAF的章节，例子有点难了。讲的是group_concat的实现。查了资料后觉得网上写的博客非常好，例子比较简单，更能够明白到底在说什么。一定要结合MapReduce的过程来看，才会想明白。不要...

2019-09-19 14:45:54 178

转载 Hive中ObjectInspector的作用

Serde是什么：Serde实现数据序列化和反序列化以及提供一个辅助类ObjectInspector帮助使用者访问需要序列化或者反序列化的对象。Serde层构建在数据存储和执行引擎之间，实现数据存储+中间数据存储和执行引擎的解耦。//主要实现数据的序列化和反序列化。publicabstractclassAbstractSerDeimplementsSerDe{p...

2019-09-19 14:44:27 907

转载 spark sql 在饿了么的应用实践

背景介绍目前"饿了么"spark主要应用在streaming、ETL和ML场景上，本文主要是分享我们ETL场景从hive SQL到spark SQL的迁移实践。在整个迁移过程中我们把线上多个版本的spark(1.5.2，1.6.3)统一推动升级到2.1.1，同时从Standalone运行模式迁移到了On YARN模式，以减少我们的维护成本。在安全控制上我们参考hive的权限系统开发了统一的权限...

2019-09-19 10:03:44 286

转载 Long-running Spark Streaming Jobs on YARN Cluster

A long-running Spark Streaming job, once submitted to the YARN cluster should run forever until it is intentionally stopped. Any interruption introduces substantial processing delays and could lead to...

2019-09-17 23:52:08 336

转载 [Hive]编写non-deterministic的UDF时遇到的谓词下推（Predicate pushdown）错误分析

遇到这样一个问题：hive> desc ljn001;OKname stringvalue inthive> select * from ljn001;OKwang5 92zhang3 87li4 73然后我想使用UDF实现的分析函数row_number去查询value最小的name。如果不清楚UDF实现row_number的原...

2019-09-17 15:29:02 624

转载 Hive 通过关闭CBO (Cost based Optimizer) 来优化特定的SQL执行

Hive 自0.14.0开始，加入了一项”Cost based Optimizer”来对HQL执行计划进行优化，这个功能通过”hive.cbo.enable”来开启。在Hive 1.1.0之后，这个feature是默认开启的,它可以自动优化HQL中多个JOIN的顺序，并选择合适的JOIN算法Join reordering and join algorithm selection are few...

2019-09-17 15:20:37 1672

原创查看parquet文件格式内容

1. 下载对应的parquet-tools jar:http://logservice-resource.oss-cn-shanghai.aliyuncs.com/tools/parquet-tools-1.6.0rc3-SNAPSHOT.jar?spm=5176.doc52798.2.7.H3s2kL&file=parquet-tools-1.6.0rc3-SNAPSHOT.jarg...

2019-09-14 22:07:40 8127

转载 spark使用supervisor守护进程

Install$ sudo apt-get install supervisor配置使用默认路径下配置(/etc/supervisord.conf) 指定目录supervisord.conf配置; supervisor config file[unix_http_server]file=/home/hadoop/supervisor/supervisor.sock ...

2019-09-10 16:36:53 957

原创 hive udf报gc异常

在编写实现udf函数时，在小批量数据是没有问题的，一旦数据量多就报错，仔细看日志有gc异常，后来经过排查，发现是udf包太大导致的问题，去除了一些不必要的依赖之后变得正常。下面是写的一个时间戳转任意时区的udf函数功能1.获取北京时间yyyy-MM-dd格式的时间selectts2day();-------2019-09-102.获取指定时间戳的北京时间yyyy-MM-dd格式的时间...

2019-09-10 16:00:45 354

转载 spark thrift server 查询日志留存

spark thrift server的web ui在运行时可以看到sql查询的提交用户，执行sql等信息image.pngimage.png但是当这个实例停掉或者异常终止以后，你再去spark history server的webui去查看，发现这部分信息就没有了……image.png究其原因，原来spark thrift server并没有将这部分数...

2019-09-08 23:14:34 815

转载 Hive性能调优总结

一、Fetch抓取1、理论分析Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conver...

2019-09-08 19:48:37 375

转载 hive msck repair table

Recover Partitions (MSCK REPAIR TABLE)Hive stores a list of partitions for each table in its metastore. If, however, new partitions are directly added to HDFS (say by usinghadoop fs -putcommand) o...

2019-09-08 17:10:46 948

转载 spark如何开启HTTP模式

1. HDFS配置:hadoop.proxyuser.HTTP.groups=*hadoop.proxyuser.knox.groups=*hadoop.proxyuser.knox.hosts=*2. Spark中：hive.server2.transport.mode binary修改为http...

2019-09-06 23:09:44 931

转载 Hive性能调优

1.设置hive.map.aggr=true，提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行，从而减轻清洗阶段数据传输和Reduce阶段的执行时间，提升总体性能。缺点：该设置会消耗更多的内存。注：顶层的聚合操作（top-levelaggregation operation）,是指在group by语句之前执行的聚合操作。例如，hive&g...

2019-09-06 10:24:46 333

转载 Oozie的简单使用

1、Oozie的介绍Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Hive等任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat中。Oozie以action为基本任务单位，可以将多个action构成一个DAG图（有向无环图Direct Acyclic Graph）的模式进行运行。Oozie工作流通过H...

2019-09-05 23:26:51 579

原创 mysql插入特殊字符乱码

在使用AWS的rds数据库时，往mysql插入数据的时候，遇到emjo这种笑脸字符的时候会报如下错误：Incorrectstringvalue:'\xF0\x9F\x98\xB4'forcolumn'brand'atrow1解决方式：找到对应数据库实例的参数组，如果建数据库的时候用的是默认的参数组则是无法修改的，这个时候需要重新新建个参数组，最重要一点是需要修改f...

2019-09-05 18:18:57 1009

原创 oozie在hue里支持多个用户提交scheduler任务

我们在使用aws的emr自带的hue+oozie服务时，遇到一个诡异的问题，描述如下：我们的hue有多个账号，每个用户都可以执行workflow并提交scheduler,但是会报一个错误：Cann't submit scheduler先查了一通oozie的日志，未发现明显问题，随后将问题定位到hue,查看了hue日志，果然有报错：WebHdfsException: 403 Client E...

2019-09-05 16:45:02 1077

原创 hive sql 自动根据时区转换

selectdate_format(from_utc_timestamp(1567640142000,"UTC"),'yyyy-MM-dd')aslocal_time2019-09-04selectdate_format(from_utc_timestamp(1567640142000,"GMT+8"),'yyyy-MM-dd')aslocal_time2019-09-05...

2019-09-05 09:55:55 6438

原创 oozie java.lang.illegalargumentexception stream exceeds limit 2 048

在oozie-site.xml中修改以下值 <property> <name>oozie.servlet.CallbackServlet.max.data.len</name> <value>2048</value> <description> ...

2019-09-05 01:16:48 681

转载 Hive JDBC连接Tez（AM）容器长期不释放问题的解决方法

问题有这样一个问题是很常见的：如果我们的Hive使用默认使用Tez作为执行引擎，当我们使用IDE通过Hive JDBC连接时，会出现在一个很“有趣”的想象：即如果我们不断开这个JDBC连接，则在Yarn上会持续有有一个Tez的AM容器持续存在，只有当端开JDBC连接时，这个容器才会被释放。关于Tez在Yarn的资源布局，可参考这篇文章：https://zh.hortonworks.com/blo...

2019-09-04 21:58:16 1295

原创 spark 根据parquet文件建表

def save_table(spark: SparkSession, partitionCondition:String, path: String, database: String, table_name: String, save_format: String = "PARQUET"): Unit = { val df: DataFrame = spark.read.parquet(...

2019-09-02 10:28:15 1326