sparksql支持传参数的封装

最新推荐文章于 2024-07-09 22:21:42 发布

zone工作室

最新推荐文章于 2024-07-09 22:21:42 发布

阅读量9.1k

点赞数

分类专栏： DB技术&&数仓技术文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengxiaosen/article/details/52634358

版权

DB技术&&数仓技术专栏收录该内容

179 篇文章 3 订阅

订阅专栏

sparkF里面：

#!/etc/profile

sql='java -jar /opt/cloudy/spark/sparkF.jar $*'

echo $sql

spark-sql -e "$sql" -i /opt/cloudy/bin/hive-init.sql

==

从上面可以得知，udf还是hive的udf，只不过命令改成了spark。

上一篇中已经给出了aa.sql

写一个自动化脚本daily_visit.sh

!#/bin/sh

if [ $# = "1" ]: then

date=$1

else

date='date -d -1days '+%Y-%m-%d*'

fi

echo $date

cd /opt/cloudy/spark/script

sparkF ./daily_visit.sql -dateStr $date

if test $? -ne 0

then

exit 11

fi

执行：

./daily_visit.sh 2015-08-28

==

资源划分：

在sparkf里面的spark-sql -e "$sql" -i /opt/cloudy/bin/hive-init.sql --driver-memory 1g 等等

＝＝

etl：数据抽取，数据加工，数据落地

用途：报表（关系形数据库）

计算和展示报表：传统做法，查询时即时计算（报表查询越来越慢），现在的做法就是计算和查询展示分离，提前计算好，查询时直接展示。

报表数据库：mysql等关系数据库

不可能用hive直接出报表，因为从hive出来很多时候需要计算，而报表系统是成熟的产品

所以需要把hive统计好的结果数据导入到关系db如mysql里面

hive的作业案例：more rpt_sale_daily.sh

#!/bin/sh

if [ $# = "1" ]: then

date=$1

else

date='date -d -1days '+%Y-%m-%d*'

fi

echo $date

cd /opt/cloudy/program/rpt_sale_daily

hiveF ./rpt_sale_daily.hql -date $date

if test $? -ne 0

then

exit 11

fi

hive2mysql ./aa.property -date $date --作用就是把结果数据从hive导入到mysql，用于报表展示。

if test $? -ne 0

then

exit 21

fi

echo "123"

===

hive2mysql开源框架有sqoop，但是sqoop export的稳定行不行，而且不灵活，通常只用sqoop import

（从关系db导入到hive或hdfs）

统计好的结果数据通常是小数据量，通常不需要sqoop等分布式框架。

所以可以自己开发一个hive2mysql框架，原理是用java封装，通过hive jdbc的方式查hive，然后把结果集insert到mysql（批处理insert）。

===

架构师的工作就是简化，方便于开发人员，做spark开发最主要就是sql。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zone工作室 CSDN认证博客专家 CSDN认证企业博客

码龄8年

153: 原创

9万+: 周排名

36万+: 总排名

102万+: 访问

: 等级

1万+: 积分

198: 粉丝

150: 获赞

65: 评论

435: 收藏

私信

关注

热门文章

分类专栏

最新评论

【20240902】运维杂记
CSDN-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
c++中指向函数的指针
m0_74240464: 返回值是int*
odl安装的一些坑
啧啧啧可怕: 这个switch是前端ui界面嘛这个我装不上诶
可重复读
ty1314yy: 想问一下，当隔离级别是RR时，事务A执行了select，按照您内容上写的事务B的insert、update、delete操作都执行不了，那什么情况下会出现幻读呢，RR级别不应该是仅仅对应update操作吗。
dpdk多队列机制
guanyuni363: 设备使用dpdk绑定了两张网卡（各八个队列）但是使用rte_eth_dev_configure()配置网卡的时候只检测到八个可用队列，怀疑第二张网卡的队列数根本没有检测到，请问一下怎么样能让使用第二张网卡的队列，有什么解决的办法吗？

大家在看

布草洗涤必备4张表-———未来之窗行业应用跨平台架构 476

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。