自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Hive常用相关设置

入职新公司,发现公司内部的hive代码有一些常用的优化设置,以前只写HQL,没有用到相关命令,记录一下。#添加第三方jar包, 添加临时函数add jar ***.jar;#启动非严格模式,可以进行笛卡尔积连接(含非等值连接),order by不必接limit, 分区表查询where中不一定非要加分区字段set hive.mapred.mode =nonstrict;#MR框架...

2019-07-04 15:14:11 549

转载 SQL查询语句优化

(1)选择最有效率的表名顺序(只在基于规则的优化器中有效):Oracle的解析器按照从右到左的顺序处理FROM子句中的表名,FROM子句中写在最后的表(基础表 driving table)将被最先处理,在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。如果有3个以上的表连接查询, 那就需要选择交叉表(intersection table)作为基础表, 交叉表是指那个被其他...

2018-03-26 17:26:01 431

原创 Bike Sharing 案例

通过对华盛顿的部分自行车租赁情况数据进行分析,对测试集的自行车租赁数目进行预测。导入数据train = read.csv("train.csv")test = read.csv("test.csv")str(train)str(test)分别对两组数据进行概览,可以发现数据集存在以下特征:$ datetime : 日期$ season : 季节,1—...

2018-03-05 18:33:41 3621

原创 R语言学习:泰坦尼克号生存预测

将一部分泰坦尼克号上的乘客数据(包括是否生还)作为训练集,对测试集中的的乘客生还情况进行预测。导入所用的包library(randomForest)library(dplyr)library(ggplot2)library(mice)导入数据从csv中分别导入训练集和测试集数据train = read.csv("train.csv",header = T,string...

2018-02-23 17:38:27 6986 2

转载 R语言:apply,sapply,tapply用法

https://www.zhihu.com/question/39843392转载自知乎,觉得总结的不错

2018-02-05 10:51:44 30856

原创 R语言学习笔记:时间序列分析

1.生成时间序列ts()ts(data = NA, start = 1, end = numeric(), frequency = 1, deltat = 1, ts.eps = getOption("ts.eps"), class =, names = )data是数值向量或矩阵,数据框将被强制转化为数值向量;start是收集数据的第一年集第一个间隔期,如2018年第1季度,...

2018-01-26 11:29:21 5147

原创 R语言学习笔记:判别分析和聚类分析

1.判别分析:根据已知分类建立判别方法距离判别法:计算距离:dist()dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2)x表示数据矩阵;method用于指定计算方法,默认“euclidean”为欧氏距离,“manhattan”绝对值距离,“maximum”切比雪夫距离,“minkowski”闵...

2018-01-26 10:35:42 4778 3

原创 R语言学习笔记:典型相关分析和对应分析

1.典型相关分析:两组变量之间的相关问题cancor()cancor(x, y, xcenter = TRUE, ycenter = TRUE)x,y为两组变量的数据矩阵;xcenter和ycenter是逻辑值,表示是否中心化,实际中一般采用默认值TRUE注意分析前要对数据进行标准化scale():对数据进行标准化和中心化scale(x, center...

2018-01-25 13:26:37 14290 1

原创 R语言学习笔记:主成分分析及因子分析

1.主成分分析princomp()princomp(formula, data = NULL, subset, na.action, ...)princomp(x, cor = FALSE, scores = TRUE, covmat = NULL, subset = rep(TRUE, nrow(as.matrix(x))), ...)x为数据集;cor默认为FALSE...

2018-01-25 13:00:04 6568

原创 R语言学习笔记:回归分析

1.一元线性回归lm():lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset,...)formula为要拟合的模型;data为...

2018-01-25 12:40:45 7946

原创 R语言学习笔记:方差分析

1.单因素方差分析:适用于单因素A有两个水平或以上,研究个水平对因变量的影响正态假设条件:W检验shapiro.test():原假设为数据来自正态分布方差齐性条件:Bartlett检验(主要用于正态分布的数据)bartlett.test(x, g, ...)x是数据向量或列表(list);g是因子向量,如果x是列表则忽略g。当使用数据集时,也可以通过formu...

2018-01-25 11:19:45 20432 1

原创 R语言学习笔记:假设检验

1.单正态总体的检验方差已知,检验均值:Z检验z.test():BSDA包,调用格式:z.test(x, y = NULL, alternative = "two.sided", mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95)x,y为样本数据,单样本时忽略y;alternative选择检验类型;mu...

2018-01-24 18:54:13 28063 2

原创 R语言学习笔记:参数区间估计

1.单正态总体的区间估计方差已知,估计均值:Z检验:z.test():BSDA包,调用格式:z.test(x, y = NULL, alternative = "two.sided", mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95)x,y是数值向量,默认y=NULL,即进行单样本的假设检验;alterna...

2018-01-24 18:09:24 18191

原创 R语言学习笔记:参数点估计

1.点估计点估计主要有两种方法,分别是矩估计和极大似然估计,具体原理可参考统计学教材。矩估计需要解n元方程,在R语言中有:解一次方程:uniroot(),调用格式为;uniroot(f,interval,...,lower = min(interval), upper = max(interval), f.lower = f(lower,...),f.upper = f(u...

2018-01-24 16:01:46 5800 1

原创 R语言学习笔记:数据的基本描述

1.分布内置函数:d(概率密度函数,density),p(累计分布函数,probability),q(分位数,quantile),r(伪随机数,random)常用分布:正态分布:_norm,参数:mean,sd 二项分布:_binom,参数:size,prob 卡方分布:_chisq,参数:df,ncp ...

2018-01-24 15:22:48 2969

原创 R语言学习笔记:缺失值的判断与处理

1.判断缺失值函数:is.na(),返回值为逻辑值,TRUE代表缺失,否则为FALSE。函数:complete.cases(),返回值为逻辑值,与is.na()相反,FASLE代表缺失,否则为TRUE。2.判断缺失模式函数:md.pattern():属于mice包,返回值为数据表,结果中“1”代表没有缺失值,“0”代表存在缺失值。第一列的值代表符合其后的每一行缺失情况的样本数,例如

2018-01-24 14:24:48 13218

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除