疫情无情人有情!
众志成城,抗击疫情。
目前疫情防控形势严峻复杂,使用 Spark SQL 分析疫情数据
一,项目需求
1、湖北籍人员信息
2、武汉疫区人员信息
3、需要对员工进行隔离观察14天的公司
4、有感染风险的车厢
5、需要隔离观察的人员信息
二, 项目信息
1> civic_info.csv
2> ticket_info.csv
1>civic_info.csv:公民信息表
对civic_info.csv进行一个简单的分析
id_no:编号
name:姓名
sex :性别
age :年龄
province:省份
city:城市
district:区
residence:住宅
home_domicile:居住地
working_company:工作公司
2>ticket_info.csv:票务信息表
对ticket_info.csv表进行一个简单的分析
ticket_no:票号
train_no:列车号
carriage_no:马车号
seat_no:座位号
passenger_name:乘客姓名
passenger_id:乘客身份证
departure:离开 地方
destination:目的地
departure_time:出发时间
arrival_time:到达时间
三,架构、代码
项目结构
资源文件放在input文件夹下, 项目Demo是:ProjectTest
代码实现
pro.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.aaa</groupId>
<artifactId>Scala</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.1.1</version>
</dependency>
</dependencies>
</project>