- 博客(16)
- 资源 (1)
- 收藏
- 关注
原创 【R语言】必学包之lubridate包
lubridate包常用于处理时间数据的数据集,提供很便利的解析日期与时间的内置函数。相较于R内置的时间处理函数,lubridate包的处理方法会更快且更加丰富。lubridate包主要有两类函数,一类是处理时点数据(time instants),另一类是处理时段数据(time spans)。1. 解析日期和时间 以下的内置函数可用于根据输入向量中年月日元素的顺序解析日期。可以将字符和数字向量中的日期转换为date或者POSIXct对象,这些函数可以识别任意的非数字分隔符(或者...
2021-01-17 17:12:30 10094 2
原创 【R语言】必学包之tidyr包
tidyr用于数据处理,可以实现数据长格式和宽格式之间的相互转换,这里所指的长格式数据就是一个观测对象由多行组成,而宽数据格式则是一个观测仅由一行组成。除此之外,tidyr还可以对数据进行拆分和合并,同时也能够对缺失值进行简单的处理。tidyr的转换函数gather(宽到长)和spread(长到宽)所需参数少,逻辑上更易理解,自始至终都围绕着data,key、value三个参数来进行设定,对比其它R语言长宽格式互换的实现方式,个人认为tidyr操作性还是比较突出的。1. gather实现wi...
2020-08-10 00:04:20 12299
原创 【R语言】必学包之plyr包
plyr包可以将函数运行在某个R对象上,经过Split-Apply-Combine把数据集分割成更小的数据集,对分割后的数据应用函数,最后汇总计算结果。根据不同的输入对象类型(数组,数据框或列表)plyr提供了不同的函数,输出数组,数据框,列表或者选择不输出。plyr的优势在于能够以简洁的代码替换复杂的循环操作,进而提高计算性能。以下为plyr包的主要函数: 输入对象 输出矩阵 输出数据框 输出列表 ...
2020-08-09 23:27:54 3694
原创 【R语言】必学包之data.table包
R语言具有较强的数据分析能力,但是对于数据处理,尤其是面对较大数据量时,就有很多的不足之处,为了解决处理较大数据集的问题,R中涌现了一系列数据处理的包,data.table包就是其中之一。data.table是对data.frame的扩展类型,因此适用于data.frame的函数也同样适用于data.table,不同的是data.table增加了索引设置,数据处理效率更高,能够快速地进...
2018-03-28 23:08:25 21615 5
原创 【R语言】缺失值
数据集中往往存在缺失值,在进行数据分析前需要了解数据的缺失值情况。R语言中的一些基本函数可用于查询缺失数据,另外还有一些第三方包可用于查询和处理数据缺失。 基本的缺失值查询可以通过is.na()和complete.cases()函数,当存在缺失值NA或者NAN时is.na()返回TRUE, complete.cases()则返回FALSE。#使用PimaIndiansDiabe
2018-01-29 22:19:33 11749
原创 【R语言】必学包之dplyr包
R包dplyr可用于处理R内部或者外部的结构化数据,相较于plyr包,dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时,dplyr包可用于操作Spark的dataframe。1. 数据集类型转换 tbl_df()可用于将过长过大的数据集转换为显示更友好的 tbl_df 类型。使用dplyr包处理数据前,建议先将数据集转换为tbl对象。
2017-02-10 20:37:50 109314 12
原创 【R语言】字符串处理
在挖掘分析的过程当中对字符串的处理是极为重要的,且出现也较为频繁,R语言作为当前最为流行的开源数据分析和可视化平台,虽然文本的处理并不是它的强项, 但是R语言还是包含了些较为常用的字符串处理函数,本文将着重介绍各个函数及其使用方法。
2016-07-24 20:35:28 40623
原创 【R语言】apply函数族
R语言apply系列函数的基本作用是对数组(array,可以是多维)或者列表(list)按照元素或元素构成的子集合进行迭代,并将当前元素或子集合作为参数调用某个指定函数。vector是一维的array,dataframe可以看作特殊的list。
2015-12-25 16:00:34 19154
原创 【R语言】文件及路劲操作
大家可能对使用dos或者shell创建文件及文件夹或者查看和修改其属性并不陌生,其实R语言的基础函数中也囊括了文件夹和文件的基本操作函数,由于使用R的过程中会常常需要与文件打交道,因此一些基本的文件操作函数在实际使用中是十分常见的,这里做了一些简单的整理。列出路劲下的文件/目录 :#列出当前目录下的文件和文件夹list.files(path = ".", pattern = NUL...
2018-07-11 22:19:51 15909 2
原创 【Netezza】正则函数
最近遇到了些数据清洗问题,很多时候需要使用到模糊匹配,因此专门对Netezza中包含的正则函数进行了简单的总结。Netezza中包含的正则函数可以对字符进行模糊查找,替换,截取等,输入参数通常包括:- Input :指定正则函数处理的字符;- Pattern : 正则表达式;- Replacement : 使用该字符替换匹配pattern的字符;- Start pos : 开始进行匹...
2018-05-15 20:46:17 1474
原创 【Netezza】导入文件到数据库
数据从flat file(.csv, .txt 等)导入到数据库,对于ETL从业人并不陌生(体力活。。。),有很多的方法和工具可以实现导入操作,比如ETL工具SSIS, Informatica, DMExpress ,同时SSMS(SQL Server Management Studio)也可以用于导入数据到SQL Server数据库,Aginity的import工具同样可以直接导...
2018-03-27 22:34:45 1380
原创 【SQL Server】获取指定表上的索引信息(SQL版)
对于如何获取索引信息,想必大家对sp_helpindex并不陌生,这也是常用方法,但是它并不能提供包含列以及filter信息,于是乎尝试着写了如下SQL code,当然和大神们写的查询的sp不能相提并论,但是凑合着使用应该没有问题。SELECT index_name, index_description, (LEFT(ind_col, LEN(ind_col)-1)
2016-11-09 14:41:19 4792
原创 【SQL Server】统计信息实战+实用SQL语句
本文重点介绍实际统计信息的运用,包括如何查询统计信息,统计信息相关的重要指标,如何找到系统中需要更新的统计信息,以及统计信息语句监控SQL语句运行情况等
2016-02-26 10:36:09 1191
原创 【SQL Server】Session blocking
In our SQL Server environment, we have frequent blocking across a few different versions of SQL Server. Blocking happens when one connection from an application holds a lock and a second connection r...
2016-02-25 14:07:53 999
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人