人口数据是我们在各项研究中最常用的数据之一。人口数据的主要来源是我国每十年进行一次的人口普查,最近一次的人口普查是2020年进行的第七次人口普查,简称七普!
我们之前介绍了《2020中国人口普查分县资料》的表1——人口基本情况(可以查看之前的文章)和表2——分年龄、性别的人口(可以查看之前的文章),本次介绍的是表3——各年龄组人口占总人口的比重、有65岁及以上老年人的户数、户口登记在外乡镇街道人口!
该表统计了我国省市县三个行政等级的指标!具体指标包括:各年龄组人口占总人口比重(0-14岁、45-64岁、65岁及以上、15-49岁育龄妇女)、有65岁及以上老年人口的户数(合计、有一个老人、有两个老人、有三个及以上老人)、户口登记地在外乡镇街道人口(本县、本省其他县、省外)。
可视化展示
1.省份的各年龄组人口占比、有老年人户数、户口登记在外人口情况
我们以全国各省份的0-14岁人口占总人口比重(%)和有65岁及以上老年人口的合计户数(户)两个指标为例来预览下,数据不包括港澳台,剩下的所有省份均有数据,如下图:


2.地级市的各年龄组人口占比、有老年人户数、户口登记在外人口情况
我们以全国各地级市的15-64岁人口占总人口比重(%)和户口登记地在省外人口(人)两个指标为例来预览下,数据不包括港澳台,剩下的所有地级市均有数据,如下图:


3.区县的各年龄组人口占比、有老年人户数、户口登记在外人口情况
我们以全国各区县的有一个65岁及以上老年人口的户数(户)和户口登记在本省其他县人口(人)两个指标为例来预览下,数据不包括港澳台,剩下的所有区县均有数据,如下图:


整理过程说明
本数据来源于《2020中国人口普查分县资料》,想得到最终的excel和shp数据,需要做两个工作,第一个是将数据电子化,形成excel格式的数据,第二个是将excel数据矢量化,得到shp格式的数据!
对于将PDF电子化,主要是要选择合适的视图软件,在识别后要对识别错误的数据进行修改,比如错误的符号,错误的字母等,最后还要对数据进行检查,比如可以通过总人口是否等于男性人口+女性人口来检查这三列数据有没有错误!
我们重点来看一下第二步——将excel数据矢量化,得到shp格式的数据!对于将excel矢量化成shp数据,我们需要首先找到一个高精度的全国省市县的行政区划shp数据,有了行政区划数据,下一步的重点工作是将excel数据根据公共列(省名称、城市名称、区县名称)链接到行政区划shp数据里面,这一步会有很多错误,需要一一检查,我们依次来看一下!
1.将省份层级的excle数据矢量化形成shp数据
由于我国只有34个省级行政单元,excel数据和shp数据里面的省份名称是完全对应的,我们不用经过任何处理,使用arcgis中的连接功能,以省份名称为连接列,直接链接就能得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!
2.将地级市层级的excle数据矢量化形成shp数据
我国有300多个地级市行政单元,这300多个行政单元的名称都是唯一的,没有重复,所以也可以直接连接得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!
3.将区县层级的excle数据矢量化形成shp数据
相比于省份层级和地级市层级,区县等级的处理要复杂的多,需要大量的工作!主要包括如下几个方面:
①我国的区县名称并不是唯一的,比如全国有四个城市有鼓楼区,有两个城市有朝阳区,有两个城市有宝山区,全国重复的区县名称大约有60个,对于这些区县,如果直接根据区县名称进行连接会出错,需要一一进行处理,这儿的处理方式是将区县前面的城市和省份加上,这样区县名称就是唯一的啦,就可以进行连接了!
②各种渠道获取的行政区划shp数据虽然精度很高,但是依然有一些和基于《2020中国人口普查分县资料》整理的excel数据不对应的区县!这儿分为两种情况,第一种是有些已经调整的区划,行政区划shp数据里面没有跟着调整,对于这样的问题,我们以以excel数据为准,对行政区划shp数据进行调整,包括:
- 河北省邢台市进行了行政区划大调整,桥西区改为了信都区,桥东区改为了襄都区等,在这儿就不一一列举了,对行政区划shp数据进行相应调整;
- 海西蒙古族藏族自治州直辖改为海西蒙古族藏族自治州大柴旦行政委员会
- 南沙市改为南沙群岛
- 烟台蓬莱市和长岛县合并为蓬莱区
- 成都新津县改为新津区
- 江西省龙南县改为龙南市
另外,在《2020中国人口普查分县资料》中还统计有大约100个地区在行政区划shp数据里面没有包括,比如比如石家庄高新技术产业开发区、河北唐山芦台经济开发区、唐山市汉沽管理区、荆州经济技术开发区济南高新技术产业开发区等!我们观察下来这些数据基本都是开发区、产业园区,而行政区划shp数据里面没有统计这些开发区、产业园区!对于这些开发区也很难找到精确的行政边界,所以在最终的shp数据中我们直接忽略了这些数据。excel版本的数据中是包括了这些开发区、产业园区的,大家如果想要使用这些数据请使用excel数据,特此说明!
文末下方是我们的公众号名片,我们将定期介绍各类城市数据以及数据的可视化和分析技术,有关2020年第七次人口普查指标数据的更多详情,欢迎大家多多关注我们进行了解~