自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 R正则表达式(grep,grepl,regexpr,sub,gsub)

传统的统计学教育几乎没有告诉过我们,如何进行文本的统计建模分析。然而,我们日常生活中接触到的大部分数据都是以文本的形式存在。文本分析与挖掘在业界中也有着非常广泛的应用。由于文本数据大多属于非结构化的数据,要想对文本数据进行传统的统计模型分析,必须要经过层层的数据清洗与整理。今天我们要介绍的『正则表达式及R字符串处理』就是用来干这一种脏活累活的。与建立酷炫的模型比起来,数据的清洗与整理似乎是一...

2019-12-04 15:26:19 1533

原创 R 一张表生成一个新的自增字段

三种方法,仅供参考。END有问题,欢迎留言。每日更新(sql,R,python,databricks,sqlserver),感谢关注!!!

2019-11-28 20:28:00 429

原创 R 数据表模糊匹配

想要把A表中num1与B表中PHN_NBR两个字段进行模糊匹配。num1为主表,但是问题两张表之间没有联系,怎么匹配呢?思路:在A表中新生成一列ID,仅仅区别行数。循环A表与B表,当num1与PHN_NBR匹配成功后,在B表中新增加一列ID2,ID2为匹配成功的A的ID号。然后通过匹配两张表的ID,即可完成。可能比较绕口,看下面例子即可明白:1、在A表中新生成一列ID2、循环A表与B表...

2019-11-28 10:17:08 1408

转载 #R#字符串处理-grep/grepl/sub/gsub等等

1 正则表达式简介正则表达式不是R的专属内容,这里只做简单介绍,更详细的内容请查阅其他文章。正则表达式是用于描述/匹配一个文本集合的表达式:所有英文字母、数字和很多可显示的字符本身就是正则表达式,用于匹配它们自己。比如 “a” 就是匹配字母 “a” 的正则表达式一些特殊的字符在正则表达式中不在用来描述它自身,它们在正则表达式中已经被“转义”,这些字符称为“元字符”。perl类型的正则表达式...

2019-11-27 17:19:19 806

转载 R语言之grep函数和正则通配符查询

在R语言的道路上又学到了一个新知识,记下来一起分享!首先,grep函数可以像数据库查询一样对向量中的具有特定条件的元素进行查询!其次,介绍几种R语言中的正则通配符:(1)“”匹配一个字符串的开始,比如sub("a","",c(“abcd”,“dcba”)),表示将开头为a的字符串。如果要将开头的一个字符串替换,简单地写成“^ab”就行。Num <- c(310,456,311,43...

2019-11-27 14:06:46 1978

原创 Databricks in 5 minutes(sql)

END有问题,欢迎留言。每日更新(sql,R,python,databricks,sqlserver),感谢关注!!!简书更加精彩:—ID:qiudongluan

2019-11-25 17:04:17 146

原创 sql对某一字段进行去空格,去换行符操作

SQL去空格,去换行符%sqlselect REPLACE(REPLACE(REPLACE(REPLACE(字段名,CHAR(13),’’),CHAR(10),’’),CHAR(9),’’),’ ‘,’’) from 表名替换前替换后说明chr(9) tab空格chr(10) 换行chr(13) 回车Chr(13)&chr(10) 回车换行chr(34) 双引号c...

2019-11-22 15:47:48 1785

原创 高效数据处理R包---lubridate

Lubridate包可以减少在R中操作时间变量的痛苦。此包的内置函数提供了很好的解析日期与时间的便利方法。这个包常用于包含时间数据的数据集。在此我展示了Lubridate包中的三个函数。这三个函数是update,duration和date extraction。作为一个初学者,了解这三个函数足以让你成为处理时间变量的专家。尽管R有内置函数来处理日期,这个包的处理方法会更快。让我们一起来通过以下代...

2019-11-21 17:36:30 673

原创 高效数据处理R包---data.table

这个包让你可以更快地完成数据集的数据处理工作。放弃选取行或列子集的传统方法,用这个包进行数据处理。用最少的代码,你可以做最多的事。相比使用data.frame,data.table可以帮助你减少运算时间。你一定会对这个包的简洁性感到震惊。一个数据表格包含三部分,即DT[i, j, by]。你可以理解为我们告诉R用i来选出行的子集,并计算通过by来分组的j。大多数时候,by是用于类别变量的。在下面...

2019-11-21 17:26:47 233

原创 notepad++ 把一行行记录转换成一行记录,并用空格分隔开

在数据处理时,常常会出现一行行记录,而在我们跑sql或者其他命令时,需要把一行行记录转换成一行记录,并用逗号分隔开,或者还想要加上’'符号。在notepad++上,能很简单的进行处理。转换前通过快捷键ctrl+R调出对话框,选择替换(replace)按钮,按照如图输入\r\n-------(’,’) 括号中的格式按照你想要的格式输入即可。转换后...

2019-11-21 17:10:38 2139

原创 高效数据处理R包---dplyr

1.dplyr包它包括了(几乎)全部可以用来加快数据处理进程的内容。它最有名的是数据探索和数据转换功能。它的链式语法让它使用起来很方便。它包括5个主要的数据处理指令:过滤——集于某一条件过滤数据选择——选出数据集中感兴趣的列排列——升序或降序排列数据集中的某一个值域变换——从已有变量生成新的变量概括(通过group_by)——提供常用的操作分析,如最小值、最大值、均值等只需要关注...

2019-11-20 17:11:52 285 1

原创 SQL语句分类变量计数与百分比统计

SQL语句分类变量计数与百分比统计select reviewAverage,count(reviewAverage) as count from table_nm group by reviewAverage having reviewAverage is not null order by reviewAverage简单的查询语句大家都比较容易的理解。select 字段A,count(A)...

2019-11-20 15:58:23 1946

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除