自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 【R语言】必学包之lubridate包

lubridate包常用于处理时间数据的数据集,提供很便利的解析日期与时间的内置函数。相较于R内置的时间处理函数,lubridate包的处理方法会更快且更加丰富。lubridate包主要有两类函数,一类是处理时点数据(time instants),另一类是处理时段数据(time spans)。1. 解析日期和时间 以下的内置函数可用于根据输入向量中年月日元素的顺序解析日期。可以将字符和数字向量中的日期转换为date或者POSIXct对象,这些函数可以识别任意的非数字分隔符(或者...

2021-01-17 17:12:30 10094 2

原创 【R语言】必学包之tidyr包

tidyr用于数据处理,可以实现数据长格式和宽格式之间的相互转换,这里所指的长格式数据就是一个观测对象由多行组成,而宽数据格式则是一个观测仅由一行组成。除此之外,tidyr还可以对数据进行拆分和合并,同时也能够对缺失值进行简单的处理。tidyr的转换函数gather(宽到长)和spread(长到宽)所需参数少,逻辑上更易理解,自始至终都围绕着data,key、value三个参数来进行设定,对比其它R语言长宽格式互换的实现方式,个人认为tidyr操作性还是比较突出的。1. gather实现wi...

2020-08-10 00:04:20 12299

原创 【R语言】必学包之plyr包

plyr包可以将函数运行在某个R对象上,经过Split-Apply-Combine把数据集分割成更小的数据集,对分割后的数据应用函数,最后汇总计算结果。根据不同的输入对象类型(数组,数据框或列表)plyr提供了不同的函数,输出数组,数据框,列表或者选择不输出。plyr的优势在于能够以简洁的代码替换复杂的循环操作,进而提高计算性能。以下为plyr包的主要函数: 输入对象 输出矩阵 输出数据框 输出列表 ...

2020-08-09 23:27:54 3694

原创 【R语言】必学包之data.table包

      R语言具有较强的数据分析能力,但是对于数据处理,尤其是面对较大数据量时,就有很多的不足之处,为了解决处理较大数据集的问题,R中涌现了一系列数据处理的包,data.table包就是其中之一。data.table是对data.frame的扩展类型,因此适用于data.frame的函数也同样适用于data.table,不同的是data.table增加了索引设置,数据处理效率更高,能够快速地进...

2018-03-28 23:08:25 21615 5

原创 【R语言】缺失值

数据集中往往存在缺失值,在进行数据分析前需要了解数据的缺失值情况。R语言中的一些基本函数可用于查询缺失数据,另外还有一些第三方包可用于查询和处理数据缺失。     基本的缺失值查询可以通过is.na()和complete.cases()函数,当存在缺失值NA或者NAN时is.na()返回TRUE, complete.cases()则返回FALSE。#使用PimaIndiansDiabe

2018-01-29 22:19:33 11749

原创 【R语言】必学包之dplyr包

R包dplyr可用于处理R内部或者外部的结构化数据,相较于plyr包,dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时,dplyr包可用于操作Spark的dataframe。1. 数据集类型转换    tbl_df()可用于将过长过大的数据集转换为显示更友好的 tbl_df 类型。使用dplyr包处理数据前,建议先将数据集转换为tbl对象。

2017-02-10 20:37:50 109314 12

原创 【R语言】字符串处理

在挖掘分析的过程当中对字符串的处理是极为重要的,且出现也较为频繁,R语言作为当前最为流行的开源数据分析和可视化平台,虽然文本的处理并不是它的强项, 但是R语言还是包含了些较为常用的字符串处理函数,本文将着重介绍各个函数及其使用方法。

2016-07-24 20:35:28 40623

原创 【R语言】apply函数族

R语言apply系列函数的基本作用是对数组(array,可以是多维)或者列表(list)按照元素或元素构成的子集合进行迭代,并将当前元素或子集合作为参数调用某个指定函数。vector是一维的array,dataframe可以看作特殊的list。

2015-12-25 16:00:34 19154

原创 【R语言】文件及路劲操作

       大家可能对使用dos或者shell创建文件及文件夹或者查看和修改其属性并不陌生,其实R语言的基础函数中也囊括了文件夹和文件的基本操作函数,由于使用R的过程中会常常需要与文件打交道,因此一些基本的文件操作函数在实际使用中是十分常见的,这里做了一些简单的整理。列出路劲下的文件/目录 :#列出当前目录下的文件和文件夹list.files(path = ".", pattern = NUL...

2018-07-11 22:19:51 15909 2

原创 【Netezza】正则函数

       最近遇到了些数据清洗问题,很多时候需要使用到模糊匹配,因此专门对Netezza中包含的正则函数进行了简单的总结。Netezza中包含的正则函数可以对字符进行模糊查找,替换,截取等,输入参数通常包括:- Input :指定正则函数处理的字符;- Pattern : 正则表达式;- Replacement : 使用该字符替换匹配pattern的字符;- Start pos : 开始进行匹...

2018-05-15 20:46:17 1474

原创 【Netezza】导入文件到数据库

        数据从flat file(.csv, .txt 等)导入到数据库,对于ETL从业人并不陌生(体力活。。。),有很多的方法和工具可以实现导入操作,比如ETL工具SSIS, Informatica, DMExpress ,同时SSMS(SQL Server Management Studio)也可以用于导入数据到SQL Server数据库,Aginity的import工具同样可以直接导...

2018-03-27 22:34:45 1380

原创 【SQL Server】获取指定表上的索引信息(SQL版)

对于如何获取索引信息,想必大家对sp_helpindex并不陌生,这也是常用方法,但是它并不能提供包含列以及filter信息,于是乎尝试着写了如下SQL code,当然和大神们写的查询的sp不能相提并论,但是凑合着使用应该没有问题。SELECT index_name, index_description, (LEFT(ind_col, LEN(ind_col)-1)

2016-11-09 14:41:19 4792

原创 【SQL Server】统计信息实战+实用SQL语句

本文重点介绍实际统计信息的运用,包括如何查询统计信息,统计信息相关的重要指标,如何找到系统中需要更新的统计信息,以及统计信息语句监控SQL语句运行情况等

2016-02-26 10:36:09 1191

原创 【SQL Server】统计表记录数

本文罗列了通过系统视图统计表记录数的方法以替代传统的count(*)方法。

2016-02-25 16:01:35 8002

原创 【SQL Server】Session blocking

In our SQL Server environment, we have frequent blocking across a few different versions of SQL Server. Blocking happens when one connection from an application holds a lock and a second connection r...

2016-02-25 14:07:53 999

原创 【SQL Server】递归CTE查询view/sp/fun中使用的所有表

递归CTE查询SQL Server具有依赖关系的实体对象

2016-02-25 10:56:08 857

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除