SparkSQL
wlk_328909605
抱你于怀,寄你于心。跃然屏上,付我青春韶华,换你真情相待。
展开
-
SparkSQL中的三种Join及其具体实现(broadcast join、shuffle hash join和sort merge join)
1.小表对大表(broadcast join)将小表的数据分发到每个节点上,供大表使用。executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQL中称作Broadcast JoinBroadcast Join的条件有以下几个:*被广播的表需要小于 spark.sql.autoBroadcastJoinThreshold 所配置的值,默认是...原创 2018-10-03 20:07:39 · 17526 阅读 · 2 评论 -
Spark SQL简介及以编程方式实现SQL查询
SparkSQL官网1.什么是SparkSQL?Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。2.SparkSQL的特点:我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执...原创 2018-09-29 08:57:00 · 2181 阅读 · 0 评论 -
SparkSQL实现根据IP地址查询归属地且保存到Mysql中及优化
**需要:**各大网站每天都会产生大量的数据,数据中有用户访问网站的时间戳,IP地址,访问的域名,浏览器信息等等,现要求分析各个省份的上网人数(实际上就是在ip规则中查询用户IP的地址,再进行聚合)实现:1、 加载城市ip段信息,获取ip起始数字和结束数字,经度,维度2、 加载日志数据,获取ip信息,然后转换为数字,和ip段比较3、 比较的时候采用二分法查找,找到对应的经度和维度4、 然...原创 2018-09-29 11:12:28 · 1242 阅读 · 0 评论