R高效数据处理包
SL_QD
we read to know that we are not alone.
展开
-
R正则表达式(grep,grepl,regexpr,sub,gsub)
传统的统计学教育几乎没有告诉过我们,如何进行文本的统计建模分析。然而,我们日常生活中接触到的大部分数据都是以文本的形式存在。文本分析与挖掘在业界中也有着非常广泛的应用。 由于文本数据大多属于非结构化的数据,要想对文本数据进行传统的统计模型分析,必须要经过层层的数据清洗与整理。 今天我们要介绍的『正则表达式及R字符串处理』就是用来干这一种脏活累活的。 与建立酷炫的模型比起来,数据的清洗与整理似乎是一...转载 2019-12-04 15:26:19 · 1535 阅读 · 0 评论 -
R 一张表生成一个新的自增字段
三种方法,仅供参考。 END 有问题,欢迎留言。 每日更新(sql,R,python,databricks,sqlserver),感谢关注!!!原创 2019-11-28 20:28:00 · 429 阅读 · 0 评论 -
R 数据表模糊匹配
想要把A表中num1与B表中PHN_NBR两个字段进行模糊匹配。num1为主表,但是问题两张表之间没有联系,怎么匹配呢? 思路:在A表中新生成一列ID,仅仅区别行数。循环A表与B表,当num1与PHN_NBR匹配成功后,在B表中新增加一列ID2,ID2为匹配成功的A的ID号。然后通过匹配两张表的ID,即可完成。 可能比较绕口,看下面例子即可明白: 1、在A表中新生成一列ID 2、循环A表与B表...原创 2019-11-28 10:17:08 · 1411 阅读 · 0 评论 -
#R#字符串处理-grep/grepl/sub/gsub等等
1 正则表达式简介 正则表达式不是R的专属内容,这里只做简单介绍,更详细的内容请查阅其他文章。 正则表达式是用于描述/匹配一个文本集合的表达式: 所有英文字母、数字和很多可显示的字符本身就是正则表达式,用于匹配它们自己。比如 “a” 就是匹配字母 “a” 的正则表达式 一些特殊的字符在正则表达式中不在用来描述它自身,它们在正则表达式中已经被“转义”,这些字符称为“元字符”。perl类型的正则表达式...转载 2019-11-27 17:19:19 · 807 阅读 · 0 评论 -
R语言之grep函数和正则通配符查询
在R语言的道路上又学到了一个新知识,记下来一起分享! 首先,grep函数可以像数据库查询一样对向量中的具有特定条件的元素进行查询! 其次,介绍几种R语言中的正则通配符: (1)“”匹配一个字符串的开始,比如sub("a","",c(“abcd”,“dcba”)),表示将开头为a的字符串。如果要将开头的一个字符串替换,简单地写成“^ab”就行。 Num <- c(310,456,311,43...转载 2019-11-27 14:06:46 · 1981 阅读 · 0 评论 -
sql对某一字段进行去空格,去换行符操作
SQL去空格,去换行符 %sql select REPLACE(REPLACE(REPLACE(REPLACE(字段名,CHAR(13),’’),CHAR(10),’’),CHAR(9),’’),’ ‘,’’) from 表名 替换前 替换后 说明 chr(9) tab空格 chr(10) 换行 chr(13) 回车 Chr(13)&chr(10) 回车换行 chr(34) 双引号 c...原创 2019-11-22 15:47:48 · 1788 阅读 · 0 评论 -
高效数据处理R包---lubridate
Lubridate包可以减少在R中操作时间变量的痛苦。此包的内置函数提供了很好的解析日期与时间的便利方法。这个包常用于包含时间数据的数据集。在此我展示了Lubridate包中的三个函数。 这三个函数是update,duration和date extraction。作为一个初学者,了解这三个函数足以让你成为处理时间变量的专家。尽管R有内置函数来处理日期,这个包的处理方法会更快。让我们一起来通过以下代...原创 2019-11-21 17:36:30 · 673 阅读 · 0 评论 -
高效数据处理R包---data.table
这个包让你可以更快地完成数据集的数据处理工作。放弃选取行或列子集的传统方法,用这个包进行数据处理。用最少的代码,你可以做最多的事。相比使用data.frame,data.table可以帮助你减少运算时间。你一定会对这个包的简洁性感到震惊。 一个数据表格包含三部分,即DT[i, j, by]。你可以理解为我们告诉R用i来选出行的子集,并计算通过by来分组的j。大多数时候,by是用于类别变量的。在下面...原创 2019-11-21 17:26:47 · 233 阅读 · 0 评论 -
高效数据处理R包---dplyr
1.dplyr包 它包括了(几乎)全部可以用来加快数据处理进程的内容。它最有名的是数据探索和数据转换功能。它的链式语法让它使用起来很方便。它包括5个主要的数据处理指令: 过滤——集于某一条件过滤数据 选择——选出数据集中感兴趣的列 排列——升序或降序排列数据集中的某一个值域 变换——从已有变量生成新的变量 概括(通过group_by)——提供常用的操作分析,如最小值、最大值、均值等 只需要关注...原创 2019-11-20 17:11:52 · 286 阅读 · 1 评论