【2020年七普数据整理】省市县三级人口受教育状况

文章介绍了2020年中国人口普查中关于人口受教育状况的数据,包括不同性别和年龄段的教育程度、平均受教育年限和文盲人口等。数据处理涉及将PDF电子化为Excel,然后将Excel矢量化为SHP格式,以便于地图可视化。在矢量化过程中,针对区县层级的复杂性,如重复区县名称和行政区划调整进行了详细说明。
摘要由CSDN通过智能技术生成

人口数据是我们在各项研究中最常用的数据之一。人口数据的主要来源是我国每十年进行一次的人口普查,最近一次的人口普查是2020年进行的第七次人口普查,简称七普!

我们之前介绍了《2020中国人口普查分县资料》的表1——人口基本情况、表2——分年龄、性别的人口、表3——各年龄组人口占总人口的比重、有65岁及以上老年人的户数、户口登记在外乡镇街道人口(表1-3的数据详情可查看之前发布的文章)

本次介绍的是《2020中国人口普查分县资料》的表4——人口受教育状该表统计了我国省市县三级人口受教育状况!具体指标包括:

一、6岁及以上各种受教育程度人口

  • 未上过学的男性\女性人口
  • 学前教育教育程度的男性\女性人口
  • 小学教育程度的男性\女性人口
  • 初中教育程度的男性\女性人口
  • 高中教育程度的男性\女性人口
  • 大学专科教育程度的男性\女性人口
  • 大学专科及以上教育程度的男性\女性人口

二、平均受教育年限

  • 合计
  • 男性平均受教育年限
  • 女性平均受教育年限

三、15岁及以上文盲人口

  • 合计
  • 15岁及以上文盲人口—男性
  • 15岁及以上文盲人口—女性

四、文盲人口占15岁及以上人口比重

  • 合计
  • 文盲人口占15岁及以上人口比重—男性
  • 文盲人口占15岁及以上人口比重—女性

可视化展示

1.省份的人口受教育状况

全国各省份的6岁以上未上过学的男性人口(人)
全国各省份的男性平均受教育年限(年)

2.地级市的人口受教育状况

全国各城市的15岁及以上合计文盲人口(人)
全国各城市的男性文盲人口占15岁及以上人口比重(%)

3.区县的人口受教育状况

全国各区县的女性平均受教育年限(年)
全国各区县的6岁以上大学本科及以上的女性人口(人)

数据过程说明

本数据来源于《2020中国人口普查分县资料》,想得到最终的excel和shp数据,需要做两个工作,第一个是将数据电子化,形成excel格式的数据,第二个是将excel数据矢量化,得到shp格式的数据

对于将PDF电子化,主要是要选择合适的视图软件,在识别后要对识别错误的数据进行修改,比如错误的符号,错误的字母等,最后还要对数据进行检查,比如可以通过总人口是否等于男性人口+女性人口来检查这三列数据有没有错误!

我们重点来看一下第二步——将excel数据矢量化,得到shp格式的数据!对于将excel矢量化成shp数据,我们需要首先找到一个高精度的全国省市县的行政区划shp数据,有了行政区划数据,下一步的重点工作是将excel数据根据公共列(省名称、城市名称、区县名称)链接到行政区划shp数据里面,这一步会有很多错误,需要一一检查,我们依次来看一下!

1.将省份层级的excle数据矢量化形成shp数据

由于我国只有34个省级行政单元,excel数据和shp数据里面的省份名称是完全对应的,我们不用经过任何处理,使用arcgis中的连接功能,以省份名称为连接列,直接链接就能得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!

2.将地级市层级的excle数据矢量化形成shp数据

我国有300多个地级市行政单元,这300多个行政单元的名称都是唯一的,没有重复,所以也可以直接连接得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!

3.将区县层级的excle数据矢量化形成shp数据

相比于省份层级和地级市层级,区县等级的处理要复杂的多,需要大量的工作!主要包括如下几个方面:

①我国的区县名称并不是唯一的,比如全国有四个城市有鼓楼区,有两个城市有朝阳区,有两个城市有宝山区,全国重复的区县名称大约有60个,对于这些区县,如果直接根据区县名称进行连接会出错,需要一一进行处理,这儿的处理方式是将区县前面的城市和省份加上,这样区县名称就是唯一的啦,就可以进行连接了!

②各种渠道获取的行政区划shp数据虽然精度很高,但是依然有一些和基于《2020中国人口普查分县资料》整理的excel数据不对应的区县!这儿分为两种情况,第一种是有些已经调整的区划,行政区划shp数据里面没有跟着调整,对于这样的问题,我们以以excel数据为准,对行政区划shp数据进行调整,包括:

  • 河北省邢台市进行了行政区划大调整,桥西区改为了信都区,桥东区改为了襄都区等,在这儿就不一一列举了,对行政区划shp数据进行相应调整;
  • 海西蒙古族藏族自治州直辖改为海西蒙古族藏族自治州大柴旦行政委员会
  • 南沙市改为南沙群岛
  • 烟台蓬莱市和长岛县合并为蓬莱区
  • 成都新津县改为新津区
  • 江西省龙南县改为龙南市

另外,在《2020中国人口普查分县资料》中还统计有大约100个地区在行政区划shp数据里面没有包括,比如比如石家庄高新技术产业开发区、河北唐山芦台经济开发区、唐山市汉沽管理区、荆州经济技术开发区济南高新技术产业开发区等!我们观察下来这些数据基本都是开发区、产业园区,而行政区划shp数据里面没有统计这些开发区、产业园区!对于这些开发区也很难找到精确的行政边界,所以在最终的shp数据中我们直接忽略了这些数据。excel版本的数据中是包括了这些开发区、产业园区的,大家如果想要使用这些数据请使用excel数据,特此说明!

文末下方是我们的公众号名片,我们将定期介绍各类城市数据以及数据的可视化和分析技术,有关2020年第七次人口普查指标数据的更多详情,欢迎大家多多关注我们进行了解~

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值