一文看懂用R语言读取Excel、PDF和JSON文件（附代码）

最新推荐文章于 2024-07-11 16:47:06 发布

大数据v

最新推荐文章于 2024-07-11 16:47:06 发布

阅读量2.9k

点赞数 1

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/97622000

版权

本文介绍了如何使用R语言的readxl、DBI和pdftools等包来读取Excel、PDF和JSON文件。readxl用于Excel文件，DBI用于数据库查询，pdftools用于PDF信息提取。read_excel是readxl的主要函数，DBI配合dplyr可进行数据库交互，pdf_info是pdftools中用于提取PDF信息的函数。

摘要由CSDN通过智能技术生成

640?wx_fmt=gif

导读：本文将讨论Excel、PDF等文件的读取，以及相应函数的参数设置。

作者：刘健邬书豪

如需转载请联系大数据（ID：hzdashuju）

下图总结了主要程序包，希望读者在日常练习和工作中遇到不同格式的文件时，能够瞬间反应出读取该格式所需的包及对应的函数。（限于篇幅，本文未包含图中“平面文档格式”这部分的内容，如果你有兴趣，可以继续关注大数据后续文章。）

640?wx_fmt=png

▲不同格式的数据文件读取所用的R包

01 readxl：Excel文件读取

readxl是微软Excel文件读取的必备R包，是Hadley Wickham、Jennifer Bryan以及其他6名成员合作完成的经典程序包之一。

值得一提的是，该包的开发者之一兼实际维护者Jennifer Bryan（网络上多称她为Jenny Bryan），可以称得上是与Hadley齐名且为数不多的女性R语言神级人物。可能是因为其身为大学教授，因此她总能够用很生动有趣的方式将复杂的问题简化成通俗易懂的知识传递给“小白”，强烈建议有英文基础的读者能够搜集一些她的主题演讲或者书籍。

更新后的readxl包中虽然也还是只有5个函数，不过功能却比以前的版本更强大了。对于起初的版本，数据会被读取成常见的data.frame格式，而对于现在的版本，读取后的数据集格式则为tibble，可以理解为提升版的data.frame。

readxl包括两个探测性函数excel_format和excel_sheets，一个引用例子的函数readxl_example，新加入的读取特定单元格的函数cell-specification以及最重要的read_excel函数。本节将着重讨论read_excel的参数设置及用法技巧。

数据导入函数read_excel主要参数及功能对照：

首先还是需要加载readxl包。尽管Hadley从2017年开始就一直在网络上宣传这个包已经属于tidyverse的一部分，但用户还是必须手动单独加载这个包。加载readxl包代码如下：

> library(readxl)

readxl包自带示范文件，使用函数readxl_example可以查看文件名字，以及获取文件路径，代码如下：

    > readxl_example()    [1] "clippy.xls"    "clippy.xlsx"   "datasets.xls"  "datasets.xlsx"[5] "deaths.xls"    "deaths.xlsx"   "geometry.xls"  "geometry.xlsx"[9] "type-me.xls"   "type-me.xlsx" 1] "clippy.xls"    "clippy.xlsx"   "datasets.xls"  "datasets.xlsx"
[5] "deaths.xls"    "deaths.xlsx"   "geometry.xls"  "geometry.xlsx"
[9] "type-me.xls"   "type-me.xlsx"

获取示例文件的路径，可以先复制readxl_example函数运行后的结果，然后将其粘贴到read_excel函数的path参数中。

下面的代码演示函数嵌套的方法，这种嵌套的代码书写方式能够在一定程度上简化代码和减少命名中间产物的频率。不过嵌套过多会使可读性变差，一般推荐只嵌套两层。将读取后的数据保存在iris中，执行str函数之后将会发现除了经典的data.frame之外，数据集还有另外两种类别，tbl_df和tbl。函数嵌套的示例代码如下：

    > iris <- read_excel(path = readxl_example(path = "datasets.xlsx"))    > str(iris)    ## Classes 'tbl_df', 'tbl' and 'data.frame':    150 obs. of  5 variables:##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...##  $ Species     : chr  "setosa" "setosa" "setosa" "setosa" ...
    > str(iris)
    ## Classes 'tbl_df', 'tbl' and 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : chr  "setosa" "setosa" "setosa" "setosa" ...

之所以命名为iris，是因为这个范例Excel文件中的第一个工作表就是该经典数据集。函数excel_sheets可用于查询同一个文件中的工作表名称，其实现代码具体如下：

> excel_sheets(path = readxl_example(path = "datasets.xlsx"))## [1] "iris"     "mtcars"   "chickwts" "quakes"
## [1] "iris"     "mtcars"   "chickwts" "quakes"

在dat