r语言自动读入统计年鉴,自动高效地处理变量名,得到干净的数据结构

一、主要问题

用excel打开一般的官方“统计年鉴”的数据,一般出现下面的形式(这里只举一例,其它情况类似,大家可仿此处理)。
图一这个表格要读入R语言处理,遇到的第一个问题就是如何按变量名称来读入数据。表格中,“年份”变量可直接读入,“年末户籍总人口(万人)”等变量可直接读入,但是像第一产业、第二产业、第三产业等,就不是那么方便了。因为这些变量一是处于不同的行,二是相同的变量名称出现多次,而且“国内生产总值”这个名称,是“第一产业”,“第二产业”等变量的前缀。所以,必须进行处理。

那么,如何处理呢?你可以在excel中手动修改,但是这样做太过笨浊了,因为当数据量很大的时候,基本上很难办到。所以本文尝试用编程的方法来处理这个问题。下面分步介绍。

二,如何处理

我们先加载三个包:

library(stringr)#处理字符串需要用到
library(xlsx)#读入excel文件时要用到
library(tidyverse)

1、直接读入数据

这里,我们先将原始数据读入Rstudio,然后编程处理。读入的时候,使用XLSX程序包。我用下面这段代码读入原始数据。读入时,不包含变量名,直接把变量名读入为数据。数据的标题不读入(也可读入后删除)。

setwd("C:/Users/caozhaowen/Desktop/南充市统计年鉴2021/南充统计年鉴2021年")
南充历年主要经济指标 <-   read.xlsx("南充统计年鉴-2021:22   附录1:南充市历年主要经济指标2020.xls",
            1,startRow = 3,endRow = 45,header = FALSE)
jjzb <- 南充历年主要经济指标

上面的第一行代码目的是设定工作路径,最后一行代码目的是保护数据。中国间代码是读入原始数据。(注:南充市统计数据可从南充市统计局官方网站下载)读入后的数据如下图所示:
图二从上面的图片可以看出,这样的数据无法使用。变量名不具有可用的意义。

2、解决问题的思路

我们想做的事情,就是将数据框中的第一和第二行数据提取出来,作为变量的名称使用。
如何提取?由图一可以看出变量之间的关系,比如,x4的变量名,实际上可以认为是“国内生产总值(万元)第一产业”,同样,X5的变量名称实际上是“国内生产总值(万元)第二产业”,又如,X11的名称实际上是“国内生产总值指数(1952=100)第一产业”等等。这样,变量名互不重复ÿ

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

兆文

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值