Spark技术04直播笔记

最新推荐文章于 2024-07-21 11:20:00 发布

暗托涅瓦

最新推荐文章于 2024-07-21 11:20:00 发布

阅读量570

点赞数 15

分类专栏：华东区大赛赋能训练营（第一期）文章标签： spark 笔记 oracle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_74774974/article/details/136367599

版权

华东区大赛赋能训练营（第一期）专栏收录该内容

7 篇文章 0 订阅

订阅专栏

昨天通过pycharm已经能够连接到集群了
在这里插入图片描述
先启动spark集群

zk-startall.sh

在这里插入图片描述

start-all.sh

在这里插入图片描述

cd /home/hadoop/spark-3.5.0

./sbin/start-all.sh

启动以后看看集群里面的文件夹
在这里插入图片描述

mysql -uroot -p

然后可以连接到虚拟机的数据库的密码是123456

在这里插入图片描述

show databases

查看现有数据库
在这里插入图片描述
然后Navicat新建连接数据库

还需要SSH转接虚拟机

测试连接成功继续

在这里插入图片描述
双击连接，里面数据库显示是一样的
就可以通过spark提交获取数据库里面的信息

现在要做的是spark在Mysql里面去读取，然后存入到一个csv文件里面

实现编码，首先要导包
在这里插入图片描述

from pyspark.sql import SparkSession

在这里插入图片描述

spark = SparkSession.builder.master('spark://hadoop141:7077').appName('ReadMysql').getOrCreate()

注意读取的所有东西，要按照虚拟机的位置来写

spark想要读取数据库有个read函数，jdbc连接，想要连接数据库要记住四个url、driver(驱动)、user、password
在这里插入图片描述

这里用的test数据库

读的时候还需要告诉它读哪个表所以要加
在这里插入图片描述

.option('dbtable','department').load()

departmentDF.show()

然后你需要先回到hadoop141里，因为数据库的驱动程序你要找到一个具体的位置
在这里插入图片描述

看见有这个jar包

要先切换位置

cd /home/hadoop/hive/

在这里插入图片描述

cd lib/

ls -l

在这里插入图片描述
这里面能够找到

指定驱动，然后在告诉他的驱动然后把jar包显示出来后面还要有执行的文件路径

接下来保存数据

先把前面这个换成local本地的

保存后重新执行
在这里插入图片描述

这就是最终执行出的数据，这是一个简单读取数据、写入文本的案例

用这个也行
在这里插入图片描述
之后必须要在虚拟机里执行，里面的路径也是虚拟机的路径

在这里插入图片描述
之后把这两个文件ctrl+c,

新建一个date包，放在包里面
在这里插入图片描述
然后在这里面就能看的到了

新建sql3python文件

如果有空值用’ '代替

加载数据源读取csv文件

然后显示数据

没找到因为它默认的是hdfs,如果想读取本地要加入file:

或者可以把csv传入到hdfs里面，记录相对应的路径后可以读取
在这里插入图片描述

这个比较慢，和电脑配置有关

还可以显示结构

在这里插入图片描述
还可以探索数据

用sql来读取csv文件里的数据，spark主要做的就是数据分析
在这里插入图片描述
等于csv文件给它形成了一个数据库

接下来弄另一个

出来了

然后准备查询这个和这个
在这里插入图片描述
e后面不要忘了加空格，不然不能自动识别到

既然出来了，就给他创建一个视图，后面所有信息都可以从这里去获取
有了这个details就可以实现业务分析了

关注

15
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Spark技术04直播笔记

spark简单读取数据、写入文本的案例、用sql来读取csv文件里的数据
复制链接

扫一扫

专栏目录

暗托涅瓦 CSDN认证博客专家 CSDN认证企业博客

码龄2年

487: 原创

4011: 周排名

3136: 总排名

32万+: 访问

: 等级

9204: 积分

5924: 粉丝

3883: 获赞

146: 评论

4127: 收藏

私信

关注

热门文章

分类专栏

最新评论

灯塔 Beacon(区块链游戏)攻略
暗托涅瓦: 另外我运气比较好上次听ama 参加活动抽到了这游戏的必中白场外价值1000u 可以mint最新nft资产通行证，这是一个被官方明确赋能的生态级资产，其赋能包括参与新前线任务的第二和第三阶段，获得未来治理代币的空投并且通过完成任务来进一步赚取更多代币有提前测试后续新版本的资格并能直接向制作团队反馈优化建议团队会直接对贡献者发放代币空投
灯塔 Beacon(区块链游戏)攻略
暗托涅瓦: 游戏玩法内容就是进入地下城冒险、打怪通关然后开启宝箱获得奖励目前是第一阶段完全白嫖开宝箱能获得arb nft以及新资产的白名单活动截止24号需要推特粉丝有一定数量
如何评价GPT-4o?
暗托涅瓦: 混个话题达人勋章
STEPNGO跑鞋投研攻略
暗托涅瓦: 1.STEPN GO 开始抽奖了吗？答：还没有，关注社区最新消息。 2.如何提前准备参与抽奖？答：需要先注册FSLID等待APP上线购买GMT参与抽奖。 3.我现在能做什么？答：注册FSLID并在社区verify你的FSLID，熟知白皮书参与社区活动。 4.抽奖需要花费多少GMT？答：需要锁定5个GMT获取2张门票，一张用于Alpha轮，另一张用于额外轮次。 5.参与抽奖未中GMT会退款吗？答：GMT将被锁定直至2028年，即使获奖者在此期间获得奖品，也无法提取GMT，中奖者获得3个STEPN GO球鞋盒 STEPNGO白皮書中文版 FSL积分是1：1兑换GMT https://docs.google.com/document/d/13Y9oqrT7GqtJMGSJtWy9jEQ8JBkDeQMpASLXo2jjOzc/edit?tab=t.0#heading=h.3i74malzqw65
Blade of God X(神之刃X)(区块链游戏)
暗托涅瓦: 二测结束了想玩的要等三测

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。