spark-sql
卓_尔_不_凡
这个作者很懒,什么都没留下…
展开
-
PySpark学习---销售情况数据统计分析案例
其中所有的服务都要开启,尤其注意hive的元数据存储服务和远程jdbc连接服务,看看9083端口,可能是集群中的任何一个节点,所有节点试着找一遍。导包的时候最好一个一个功能的导,不要用import * ,这个可能会导致未知错误,一些重复命名等问题。4.TOP3省份中,各个省份的支付类型。2.TOP3销售省份中,有多少家店铺。3.TOP3省份中各个省份的。1.将需求结果写出到。原创 2024-04-25 17:55:54 · 510 阅读 · 1 评论 -
Spark学习---连接hive直接用sql语句更新数据
测试代码:确保有可查询的表存在。连接数据库需要导入jar包。原创 2024-04-25 08:45:32 · 278 阅读 · 0 评论 -
SparkSql学习---执行sql语句到hive报错
【代码】SparkSql学习---执行sql语句到hive报错。原创 2024-04-24 21:17:19 · 80 阅读 · 1 评论 -
SparkSql学习---链接MySQL数据库并更新数据
要先向环境中添加mysql的jar包:数据库端口:3306用户:root密码:root数据库:spark。原创 2024-04-24 11:37:23 · 336 阅读 · 0 评论 -
SparkSql学习---电影评分数据分析案例
【代码】SparkSql学习---电影评分数据分析案例。原创 2024-04-24 09:15:44 · 398 阅读 · 0 评论 -
SparkSql学习---单词词频统计案例
【代码】SparkSql学习---单词词频统计案例。原创 2024-04-23 22:42:49 · 138 阅读 · 0 评论 -
SparkSql学习---数据清洗API
【代码】SparkSql学习---数据清洗API。原创 2024-04-24 09:57:45 · 100 阅读 · 0 评论 -
SparkSQL学习
1.和 Hive同样,都是用于大规模SQL分布式计算的计算框架,均可以运行在YARN本上,在企业中广泛被应用2. SparkSQL的数据抽象为:SchemaRDD(废弃)、DataFrame (Python、R、Java、Scala ) .DataSet (Java、scala)。3. DataFrame同样是分布式数据集,有分区可以并行计算,和RDD不同的是,DataFrame中存储的数据结构是以表格形式组织的,方便进行SQL计算。原创 2024-04-23 22:39:02 · 216 阅读 · 0 评论