spark处理json数据集，放在hdfs上，再存入hive，接着用sqoop工具导入数据库

Jack_Huan10000100

已于 2022-09-12 21:30:00 修改

阅读量1.1k

点赞数

文章标签：数据库 spark mysql

于 2022-09-12 21:14:24 首次发布

本文链接：https://blog.csdn.net/weixin_44562654/article/details/126822864

版权

微博数据集来源可以参考微博
词云、位置
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/DULFFJ

1.用spark简单处理json数据集，去重得到数据集中的用户手机品牌，分类获取品牌中的苹果手机品牌数量以及android品牌的数量，代码如下：
spark处理json数据集
2.将处理完成的数据上传到hdfs上，spark处理会产生很多小文件，这里限制了repartition为2，以及将hdfs文件合并成一个的程序，如图：
在这里插入图片描述
3.将hdfs上的手机数据、苹果手机数据、安卓手机数据，导入数据仓库hive中,hive-shell中操作如下：

create table weibo_phone(phone string) ;
load data  inpath './jack/phone.txt' overwrite into table weibo_phone;
 select * from weibo_phone limit 50;

将hive中的数据导入对应的mysql数据库中，实现数据可视化，这里用到sqoop组件。
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Jack_Huan10000100

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark获取json写入hive(工作实例)

someInNeed的博客

09-07

662

spark-submit \ --executor-memory 8G \ --conf spark.target.date=${dt} \ --conf spark.ui.retainedTasks=50000 \ --driver-memory 4G \ --master yarn \ --class com.cifi.zhyc.SparkImportMcYanPan\ --deploy-mode client \ {JsonSpark.jar} \ package com.cifi.zhyc .

【大数据之路7】数据采集工具 Flume 的使用

程序员五哥

06-14

1754

Apache Flume 是一个分布式的、可靠、高可用的海量日志采集、聚合和传输的系统，支持在系统中定制各类的数据发送方，用于采集数据，同时 Flume 提供对数据的简单处理，并写到各种数据接收方的能力。Flume 和 Sqoop 同属于数据采集系统组件，但Sqoop ⽤来采集关系型数据库数据，⽽ Flume ⽤来采集流动型数据。Flume 名字来源于原始的近乎实战的⽇志数据采集⼯具，现被⼴泛⽤于任何流事件数据的采集，它⽀持从很多数据源聚合数据到 HDFS。

参与评论您还未登录，请先登录后发表或查看评论

sparkSQL读取 MongoDB 中存储的嵌套JSON数据，并解析写入hive中

HD0do的博客

08-14

1020

七夕之下，我却独自在此晚写下这一《spark读取MongoDB数据文章》，奈若何，奈若何.....

Spark的数据存储目录HDFS

wuzd的专栏

05-22

2152

Spark主要在内存中运算，最终的运算结果可以通过Hive存入到Mysql（MariaDB）和HDFS系统的。 1.spark和Hive集成， 2.通过Spark来建表，和插入数据， 3.在DB和DHFS中查看插入的数据。一、项目环境 Linux:centos7 JDK: java version 1.8 Python：3.8 Spark：spark-3.2.1 Hadoop：2.7.3 Hive:2.1.1 MariaDB:5.5.64...

python版佛祖保佑

m0_43424160的博客

04-02

540

java 原版 ''' _ooOoo_ o8888888o 88" . "88 (| -_- |) O\ = /O ____/`---'\____

Hive——Hive/Spark SQL解析JSON对象、JSON数组

aof

07-14

2442

文章目录窗口分析函数1. 分析函数2. 聚合函数3. 窗口函数行列转换1. 行转列2. 列转行JSON处理1. JSON对象2. JSON数组时间处理窗口分析函数函数中用到的表数据如下图： 1. 分析函数 row_number() rank() dense_rank() 这3个函数通常用在组内排序中，但实现的效果却不相同，用法如下： select name,subject,score, row_number() over(partition by name orde

利用python编写爬虫程序，从招聘网站上爬取数据，将数据存入到MongoDB数据库中，将存入的数据作一定的数据清洗后做数据分析，最后将分析的结果做数据可视化

qq_41434270的博客

07-14

6125

教程演示创建爬虫项目编写需要爬取的字段（items.py）编写spider文件（wuyou.py）编写数据库连接（pipelines.py）编写反爬措施（settings.py）MongoDB数据库的安装软件下载数据测试本人已经爬取了一部分数据，分享出来供大家测试配置Linux环境在这里本人使用的资源都会发布出来为了方便大家的测试，配置好的虚拟机我也会分享出来启动Hadoop集群数据储存具体要求：将爬取的数据存储到hdfs上。利用flume收集日志1：将mongodb数据库的爬虫数据导入出来存为csv或者t

数据采集模块——Flume消费Kafka数据写入到HDFS

weixin_44196083的博客

03-27

3343

一、项目背景 1. 实时数据写入到 Kafka topic 中，经 Flume 批量采集到 HDFS 上。此处的实时数据格式为标准 JSON 格式（不包含嵌套 JSON）。 2. 测试环境模拟数据的采集过程。测试集群为第三方公司基于当前主流开源组件自主研发并搭建的大数据平台，包含常用组件：HDFS,MapReduce,Yarn,Hive ,HBase ,Phoenix,Zookeeper,...

数仓体系与数据治理全集

最新发布

weixin_44687655的博客

04-06

3245

数据仓库（Data Warehouse），可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。

大数据实训（爬取前程无忧利用hive、sqoop分析）

weixin_44701462的博客

07-14

2816

一、总体要求利用python编写爬虫程序，从招聘网站上爬取数据，将数据存入到MongoDB数据库中，将存入的数据作一定的数据清洗后做数据分析，最后将分析的结果做数据可视化。二、环境 hadoop、hive、sqoop、pycharm 三、爬取字段 1、具体要求：职位名称、薪资水平、招聘单位、工作地点、工作经验、学历要求、工作内容（岗位职责）、任职要求（技能要求）。（1）新建一个项目：scrapy startproject pawuyijob (2)生成一个spider文件：scrapy genspid

Spark 修改整列数据类型+写入数据到HDFS

Nougats的博客

08-27

4896

Spark 修改dataset整列数据类型import org.apache.spark.sql.types.IntegerTypegeoans.select(geoans.col("pointNum").cast(IntegerType).as("lat"))写入数据到HDFSa.repartition(3).write.parquet("hdfs://master:9000"+"/data/30

spark：sparksql：读取各数据源（mysql，json，txt，hive）并推送到hive或mysql

不花的花和尚的博客

08-15

1366

测试数据： people.json {"name":"andy"} {"name":"len"} {"name":"marry","age":19} {"name":"tom","age":29} {"name":"mike","age":39} people.txt 1,tang1,10 2,tang2,20 3,tang3,30 4,tang4,40 5,tang5,50 pa...

sqoop 从mysql 导入json格式中文乱码

Antg的博客

07-15

640

sqoop 导入mysql json 格式数据中文乱码解决方法

Spark 从Hive表中读数据或向Hive中写入数据

pageniao的博客

07-27

2469

Spark SQL支持在Hive中的数据读写，但是Hive中有大量的依赖在Spark中不存在，所以在使用过程中要配置这些依赖。 Configuration of Hive is done by placing your hive-site.xml, core-site.xml (for security configuration), and hdfs-site.xml (for HDFS configuration) file in conf/. 下面是使用Hive的测试： import org.apac

Spark 操作JSON格式数据

10-06

2730

scala> val json=spark.read.json("/opt/data/emp.json") json: org.apache.spark.sql.DataFrame = [comm: string, deptno: bigint ... 6 more fields] scala> json.show +----+------+-----+------+--------...

spark--JSON数据的处理

weixin_43894652的博客

01-14

1469

Spark SQL能够自动将JSON数据集以结构化的形式加载为一个DataFrame读取一个JSON文件可以用SparkSession.read.json方法指定DataFrame的schema1，通过反射自动推断，适合静态数据2，程序指定，适合程序运行中动态生成的数据重要的方法2，get_json3，explode。

spark中将数据输出到json文件的两种方式

weixin_41590998的博客

11-15

5517

在学习spark时，我们经常遇到要将数据写进一个json文件中的案例。通常的案例就是，给我们一个普通文件，然后我们用sparkcore或者sparkSQL，遍历文件内容后，按照需求将再将遍历后得到的数据写入json文件中。这里，我主要使用两种方法：方式一：通过dataframe.write.json() 方式二：使用gson 初始的文件部分内容大概如下所示： 300T|3001003|C204...

17 ，spark sql 使用，读取 json 格式文件，隐式转换包，基本语法，直接写 sql ，嵌套 json 的读取，json 数组读取

孙砚秋的博客

08-18

781

0 ，别忘了引包： import spark.implicits._ 1 ，SparkSQL 介绍： SparkSQL 脱离了 Hive 的限制。 SparkSQL 支持查询原生的 RDD。 RDD 是 Spark 平台的核心概念，是 Spark 能够高效的处理大数据的各种场景的基础。能够在 Scala 中写 SQL 语句。支持简单的 SQL 语法检查，能够在 Scala 中写 Hive...

Apache Sqoop实践：从MySQL、Sybase到HDFS与Hive的导入

"Apache Sqoop是一种在Hadoop与关系型数据库之间进行数据迁移的工具，它允许用户从MySQL、Sybase等RDBMS系统导入数据到HDFS，或者从HDFS导出数据到RDBMS。在本篇内容中，我们将重点讨论如何使用Sqoop将数据从MySQL和...