Hive
萧逸才
这个作者很懒,什么都没留下…
展开
-
Hive平台UDF调用实践之乱码
应用场景 从Hive数据仓库批量捞取数据通过UDF中HttpURLConnection调用至服务端;问题 服务端拿到的中文数据部分存在乱码;排查1、查询MySql数据库,发现源数据非乱码且编码格式为UTF-8;2、查询Hive数据仓库,发现数据非乱码且编码格式为UTF-8;3、初步判断乱码发生在HttpURLConnection调用过程中;解决修...原创 2018-09-14 14:05:01 · 1280 阅读 · 0 评论 -
记一次Hive平台清洗数据
场景(简化)现有文章表Article和评论表Comment;一篇文章可以有多个评论;文章表Article主要字段(articleId);评论表Comment主要字段(commentId,articleId,content,createTime,lastChangeTime);问题描述发现很多文章下出现了评论内容一样的评论,所以需要对文章的评论进行数据清洗,即同一文章下相同内容的点评只保...原创 2019-01-03 16:10:01 · 4471 阅读 · 0 评论