Hive
文章平均质量分 78
三印
专注于大数据、BI、数据挖掘、数据库架构方向,欢迎交流,共同进步~
展开
-
Superset win10环境下安装部署
一、环境依赖Win10操作系统 anaconda python3.6二、开始安装创建虚拟环境,为了不让superset包与原先的包产生依赖关系(为避免出现不必要的错误,建议使用python3.6及以上版本)conda create -n superset python=3.6激活虚拟环境activate superset更新pippython -m pip install --upgrade pip安装superset 分别输入以下:pip install a.原创 2021-04-22 16:04:16 · 859 阅读 · 1 评论 -
高可用Hadoop大数据部署流程
背景随着公司业务飞速发展,数据体量急剧上升、运营指标需求多样化、精细化;为解决上述问题和实现合理化、规范化数据管理,提供稳定、可靠和适配的数据服务能力,大数据平台的建设迫在眉睫。另一方面,在对市场调研之后,由于我司业务处于政务环境网(与公有网进行了全方位隔离),只能通过成熟的云产品进行私有化部署,但价格不菲。例如阿里云大数据敏捷版本(功能相对不够完善:200万以上/年,持续付费/年)阿里云大数据企业版本(功能完善:1000万以上/年,持续付费/年)蚂蚁Oceanbase基础版(仅提供分布原创 2021-03-29 14:59:23 · 771 阅读 · 0 评论 -
hive 学习心得和日常填坑
2019-12-11更新:impala结构化数据库基于google最新三篇大数据文章,基于hive(提供metadata)的一种更快的数据库。与Hive主要区别:不走mapreduce并行计算架构,而是采用query解析树结构,节点的数据由下往上拉取,而不是reduce计算完 成之后往下传递,从而降低时间消耗 无稳定性保障(默认...原创 2018-03-21 21:25:24 · 2233 阅读 · 0 评论 -
Hive 结合Python抽数据
Hive 数据仓库,但是项目中偶尔需要你进行进行数据抽取,单纯的SQL不好解决该类问题,编写UDF(User Defined Function,自定时函数),Hive 中的transform 可以帮助你实现该功能;1、既然用到Python 强烈装一个anaconda3 因为里面所有包都集成好了,能够更方便解决问题,设置好环境变量;2、编写Python代码,将你需要的逻辑代码化,再利用if __n...原创 2018-04-02 16:39:24 · 548 阅读 · 0 评论 -
Hive 实战优化策略
2018-06-14更新:更新8Hive 在大数据执行时,真的是很慢,跑一张表经常就是跑几个小时,一天下来跑不了几张表,通过一段时间学习,总结几个常用的Hive 优化方法,希望对新手有点帮助,我也是新手,博客存在问题的地方,请大家批评指正,共同学习、进步,谢谢!hive -f /路径/filename 执行打包文件,可以在下班之后,确保代码没有问题的情况下,打包执行,第二天再来看结果,...原创 2018-04-04 10:40:38 · 440 阅读 · 0 评论 -
Hive 之SQL优化技巧与实践
一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化,下文会分别阐述。 在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南),方便后面对照。另...转载 2018-04-04 12:50:42 · 2255 阅读 · 0 评论 -
Linux Hive 脚本Crontab定时部署和Crontab无法执行且无输出日志修正
目前用Hive需要跑一批定时数据抽取任务,所以想到了Crontab 定时模式,以下是几天来踩的坑;希望对第一次用Crontab的新人一点帮助。1、写好sh脚本 然后利用Crontab -e 进行部署,00 11 * * * /home/dir/baidu_update_data.sh > /file.log 2>&1类似于之中格式,!注意!:00 11 * * ...原创 2018-04-12 11:05:49 · 1854 阅读 · 0 评论