hive 使用streaming 的map 脚本来处理数据

youngqj

于 2013-10-22 14:12:22 发布

阅读量6.5k

点赞数

分类专栏： python hadoop 文章标签： hive

本文链接：https://blog.csdn.net/youngqj/article/details/12946883

版权

hadoop 同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

python

6 篇文章 0 订阅

订阅专栏

在对hive 进行 select 查询的时候我们可以编写 python 、php 、c++等脚本来进行相应的数据处理，我们要用到hive 的 TRANSFORM 和 using

看例子：

add file /www/FCCS_Data/ComETL/hive/sql_map/demo.py ;

from access_fccs select  TRANSFORM (time)  using 'python  demo.py'  where week=41  limit 10 ;

或者：

add file  /www/FCCS_Data/ComETL/hive/sql_map/demo.py;
select   TRANSFORM (time)  using 'python   demo.py' as (time) from (select *   from access_fccs  where week=41  limit 10) a  ;

上面 SQL的意思是将查询结果集中的 time 通过 demo.py 进行处理返回相应的结果，至于都做什么处理了，请看下面的demo.py代码。

这里我们需要注意的是，一定要先将map脚本添加到分布式缓存中，否则会报错 metadata.HiveException: [Error 20003]: An error occurred when trying to close the Operator running your custom script. at 这种错误

特别说明这里的路径为本地路径不是分布式HDFS 路径，新手比较容易搞混

然后看看我们的demo.py 是怎么写的

#!/usr/bin/env  python
#-*- coding:utf-8 -*-
import sys
import datetime
import time

#把时间戳转成字符串形式
def timestamp_toString(stamp):
    return time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(stamp))

for line  in sys.stdin:
        print timestamp_toString(float(line))

董python 的朋友不难看出这里是将我们的时间戳转化成日期格式输出

因此我们执行完毕 hive SQL 后的结果为：

Total MapReduce CPU Time Spent: 23 seconds 880 msec
OK
2013-10-11 13:11:47
2013-10-11 13:11:47
2013-10-11 13:11:47
2013-10-11 13:11:47
2013-10-11 13:11:47
2013-10-11 13:11:48
2013-10-11 13:11:48
2013-10-11 13:11:48
2013-10-11 13:11:48
2013-10-11 13:11:48
Time taken: 33.411 seconds

当然这只是个例子 demo.py 可以用其他语言实现。

希望能帮到和我一样的新手同学。

youngqj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
hive 使用streaming 的map 脚本来处理数据

在对hive 进行 select 查询的时候我们可以编写 python 、php 、c++等脚本来进行相应的数据处理，我们要用到hive 的 TRANSFORM 和 using 看例子：add file /www/FCCS_Data/ComETL/hive/sql_map/demo.py ; from access_fccs select TRANSFORM (t
复制链接

扫一扫