EDA探索疫情模型的建立

该博客通过数据清洗、分析及可视化,利用Python的sklearn和xgboost库建立疫情模型。首先检查并处理数据缺失值,然后对时间进行转化。接着,展示随时间变化的死亡和确诊人数趋势,以及国家间的对比。通过特征工程,将日期拆分并组合国家和省份信息。最后,使用xgboost构建模型,得出高拟合度的结果。
摘要由CSDN通过智能技术生成

 本次实验我们用到的主要模块有以下模块:

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn  as sns
import random
from plotly import tools
import plotly.express as px
from plotly.offline import init_notebook_mode, iplot, plot
import plotly.graph_objs as go  
import ast

当然有些可能用不上,但是先插入以便于后面的操作

我们先来看看我们本次实验的两组数据分别是有一组训练组和一组实验组分别为:

df_train

 df_test

第一步:数据清洗

df_train.info()
df_train.isna().sum()

1.对数组进行数据缺失值的检查,并在下面步骤对于缺失值进行处理:我们可以发现province缺失了很多,为了避免删除她的数据对整个coutry_region造成影响,我们决定,用填补的方式去弥补空缺。

df_train.Prov
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值