![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
萧逸才
这个作者很懒,什么都没留下…
展开
-
大数据思维
全样而非抽样; 效率而非精确; 相关而非因果;原创 2018-09-13 11:27:43 · 2810 阅读 · 0 评论 -
Hive平台UDF调用实践之乱码
应用场景 从Hive数据仓库批量捞取数据通过UDF中HttpURLConnection调用至服务端; 问题 服务端拿到的中文数据部分存在乱码; 排查 1、查询MySql数据库,发现源数据非乱码且编码格式为UTF-8; 2、查询Hive数据仓库,发现数据非乱码且编码格式为UTF-8; 3、初步判断乱码发生在HttpURLConnection调用过程中; 解决 修...原创 2018-09-14 14:05:01 · 1260 阅读 · 0 评论 -
记一次Hive平台清洗数据
场景(简化) 现有文章表Article和评论表Comment; 一篇文章可以有多个评论; 文章表Article主要字段(articleId); 评论表Comment主要字段(commentId,articleId,content,createTime,lastChangeTime); 问题描述 发现很多文章下出现了评论内容一样的评论,所以需要对文章的评论进行数据清洗,即同一文章下相同内容的点评只保...原创 2019-01-03 16:10:01 · 4449 阅读 · 0 评论