Vbox Ubuntu spark大数据可视化实验

本文介绍了如何在VirtualBox的Ubuntu环境中搭建Spark实验环境,通过共享文件夹配置、HDFS启动、数据上传,然后编写Python脚本进行数据统计,并使用Echarts进行数据可视化,包括安装必要库和运行可视化脚本。
摘要由CSDN通过智能技术生成

一、虚拟机配置

1.设备->共享文件夹

2.添加共享文件夹
​​​​在这里插入图片描述
3.设备->安装增强功能

安装好后reboot

4.挂载
在这里插入图片描述

二、实验环境搭建

$ sudo cp /home/share/.bashrc ~/.bashrc.sh
$ source ~/.bashrc.sh
$ sudo tar -zxvf /home/share/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/
$ cd /usr/local/spark-2.4.0-bin-without-hadoop
$ cp ./conf/spark-env.sh.template ./conf/spark-env.sh
$ sudo vi  ./conf/spark-env.sh

在spark-env.sh中添加 ↓

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

在这里插入图片描述

三、实验准备

把要用到的数据文档放入共享文件夹中
在这里插入图片描述
1.启动hdfs
在这里插入图片描述

2.检查hdfs是否成功启动
在这里插入图片描述

3.上传文件到HDFS系统中
在这里插入图片描述
在这里插入图片描述

四、编写.py文件 进行数据统计

from pyspark import SparkConf,SparkContext
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from datetime import datetime
import pyspark.sql.functions as func

def toDate(inputStr):
    newStr = ""
    if len(inputStr) == 8:       #日期格式:2020/2/2  ------>  2020-02-02
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7]
        newStr = s1+"-"+"0"+s2+"-"+"0"+s3
    else:      #日期格式:2020/1/22  ------>  2022-02-22
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7:]
        newStr = s1+"-"+"0"+s2+"-"+s3
    date = datetime.strptime(newStr, "%Y-%m-%d")
    return date
#主程序
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
 #构建表schame
fields = [StructField("date", DateType(),False),StructField("county", StringType(),False),StructField("state", StringType(),False),
                    StructField("cases", IntegerType(),False),StructField("deaths", IntegerType(),False),]
schema = StructType(fields)
#从HDFS系统中读取数据文件counties.txt;
#如果从linux系统读取,则路径为"file:///home/share/counties.txt"
rdd0 = spark.sparkContext.textFile("/user/hadoop/counties.csv")
rdd1 = rdd0.map(lambda x:x.split(",")).map(lambda p: Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))
#RDD转化成DataFrame
shemaUsInfo = spark.createDataFrame(rdd1,schema)
#创建临时视图usInfo,便于在后续的sql语句中使用
shemaUsInfo.createOrReplaceTempView("usInfo")
# 1.计算每日的累计确诊病例数和死亡数
df = shemaUsInfo.groupBy("date").agg(func.sum("cases"), func.sum("deaths")).sort(shemaUsInfo["date"].asc())
# 列重命名
df1 = df.withColumnRenamed("sum(cases)", "cases").withColumnRenamed("sum(deaths)", "deaths")
df1.repartition(1).write.json("result1.json")  # 写入hdfs
# 注册为临时表供下一步使用
df1.createOrReplaceTempView("ustotal")
# 2.计算每日较昨日的新增确诊病例数和死亡病例数
df2 = spark.sql(
    "select t1.date,t1.cases-t2.cases as caseIncrease,t1.deaths-t2.deaths as deathIncrease from ustotal t1,ustotal t2 where t1.date = date_add(t2.date,1)")
df2.sort(df2["date"].asc())
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值