【2020年七普数据整理】省市县三级各行业门类人口

文章介绍了如何将2020年中国人口普查的行业人口数据从Excel转化为Shp格式,涉及省份、地级市和区县的行业人口分布,特别是制造业、建筑业和金融业等。数据处理包括电子化、矢量化步骤,以及处理区县名称重复和行政区划不匹配的问题。文章还强调了在处理区县数据时遇到的挑战,如行政区划调整和开发区的处理,并提供了相关数据的来源和公众号信息,供进一步的数据分析和可视化参考。
摘要由CSDN通过智能技术生成

人口数据是我们在各项研究中最常用的数据之一。人口数据的主要来源是我国每十年进行一次的人口普查,最近一次的人口普查是2020年进行的第七次人口普查,简称七普!

我们之前介绍了《2020中国人口普查分县资料》的表1——人口基本情况、表2——分年龄、性别的人口、表3——各年龄组人口占总人口的比重、有65岁及以上老年人的户数、户口登记在外乡镇街道人口、表4——人口受教育状况和和表5——各职业大类人口(表1-表4的详细介绍可以查看之前发布的文章)

本次分享的是表6——各行业门类人口!该表统计了我国省市县三个行政等级的各行业门类人口数,具体指标包括:

  • 16岁及以上人口

  • 各种行业人口总计

  • 农、林、牧、渔业

  • 采矿业

  • 制造业

  • 电力、热力、燃气及水生产和供应业

  • 建筑业

  • 批发和零售业

  • 交通运输、仓储和邮政业

  • 住宿和餐饮业

  • 信息传输软件和信息技术服务业

  • 金融业

  • 房地产业

  • 租赁和商务服务业

  • 科学研究和技术服务业

  • 水利环境和公共设施管理业

  • 居民服务修理和其他服务业

  • 教育

  • 卫生和社会工作

  • 文化体育和娱乐业

  • 公共管理社会保障和社会组织

  • 国际组织

可视化展示

1.省份的各行业门类人口

全国各省份的制造业人口
全国各省份的建筑业人口

2.地级市的各行业门类人口

全国各城市的金融业人口
全国各城市的房地产人口

3.区县的人口各行业门类人口

全国各区县的科学研究和技术服务业人口 
全国各区县的文化、体育和娱乐业人口

整理过程说明

本数据来源于《2020中国人口普查分县资料》,想得到最终的excel和shp数据,需要做两个工作,第一个是将数据电子化,形成excel格式的数据,第二个是将excel数据矢量化,得到shp格式的数据!

对于将PDF电子化,主要是要选择合适的视图软件,在识别后要对识别错误的数据进行修改,比如错误的符号,错误的字母等,最后还要对数据进行检查,比如可以通过总人口是否等于男性人口+女性人口来检查这三列数据有没有错误!

我们重点来看一下第二步——将excel数据矢量化,得到shp格式的数据!对于将excel矢量化成shp数据,我们需要首先找到一个高精度的全国省市县的行政区划shp数据,有了行政区划数据,下一步的重点工作是将excel数据根据公共列(省名称、城市名称、区县名称)链接到行政区划shp数据里面,这一步会有很多错误,需要一一检查,我们依次来看一下!

1.将省份层级的excle数据矢量化形成shp数据

由于我国只有34个省级行政单元,excel数据和shp数据里面的省份名称是完全对应的,我们不用经过任何处理,使用arcgis中的连接功能,以省份名称为连接列,直接链接就能得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!

2.将地级市层级的excle数据矢量化形成shp数据

我国有300多个地级市行政单元,这300多个行政单元的名称都是唯一的,没有重复,所以也可以直接连接得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!

3.将区县层级的excle数据矢量化形成shp数据

相比于省份层级和地级市层级,区县等级的处理要复杂的多,需要大量的工作!主要包括如下几个方面:

①我国的区县名称并不是唯一的,比如全国有四个城市有鼓楼区,有两个城市有朝阳区,有两个城市有宝山区,全国重复的区县名称大约有60个,对于这些区县,如果直接根据区县名称进行连接会出错,需要一一进行处理,这儿的处理方式是将区县前面的城市和省份加上,这样区县名称就是唯一的啦,就可以进行连接了!

②各种渠道获取的行政区划shp数据虽然精度很高,但是依然有一些和基于《2020中国人口普查分县资料》整理的excel数据不对应的区县!这儿分为两种情况,第一种是有些已经调整的区划,行政区划shp数据里面没有跟着调整,对于这样的问题,我们以以excel数据为准,对行政区划shp数据进行调整,包括:

  • 河北省邢台市进行了行政区划大调整,桥西区改为了信都区,桥东区改为了襄都区等,在这儿就不一一列举了,对行政区划shp数据进行相应调整;
  • 海西蒙古族藏族自治州直辖改为海西蒙古族藏族自治州大柴旦行政委员会
  • 南沙市改为南沙群岛
  • 烟台蓬莱市和长岛县合并为蓬莱区
  • 成都新津县改为新津区
  • 江西省龙南县改为龙南市

另外,在《2020中国人口普查分县资料》中还统计有大约100个地区在行政区划shp数据里面没有包括,比如比如石家庄高新技术产业开发区、河北唐山芦台经济开发区、唐山市汉沽管理区、荆州经济技术开发区济南高新技术产业开发区等!我们观察下来这些数据基本都是开发区、产业园区,而行政区划shp数据里面没有统计这些开发区、产业园区!对于这些开发区也很难找到精确的行政边界,所以在最终的shp数据中我们直接忽略了这些数据。excel版本的数据中是包括了这些开发区、产业园区的,大家如果想要使用这些数据请使用excel数据,特此说明!

文末下方是我们的公众号名片,我们将定期介绍各类城市数据以及数据的可视化和分析技术,有关2020年第七次人口普查指标数据的更多详情,欢迎大家多多关注我们进行了解~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值