上一篇文章我们已经分析里如何批量获取网页数据:https://blog.csdn.net/yeyuanxiaoxin/article/details/104572589
这里,我们想对获得的全国高校基础数据进行数据清洗与建模、数据分析和可视化。
9、如果没有完成建模关联,这里点击建模页面进行“管理关系”操作,使得两表关联
首先看一下从网页获得的源数据结构:
这里数据相对干净,只需要进行简单的处理就可。
数据清洗与建模
1、提升标题:将第一行用作标题
2、更改表格名称,方便观察理解
3、提取省份信息
这里我根据文本特征判断,选择先复制表格,然后删除重复项
这里我们使得得了数字列(第一列)与所有省份信息(第二列)一一对应