zxymvp-CSDN博客

原创 Hive常用相关设置

入职新公司，发现公司内部的hive代码有一些常用的优化设置，以前只写HQL，没有用到相关命令，记录一下。#添加第三方jar包, 添加临时函数add jar ***.jar;#启动非严格模式，可以进行笛卡尔积连接（含非等值连接），order by不必接limit, 分区表查询where中不一定非要加分区字段set hive.mapred.mode =nonstrict;#MR框架...

2019-07-04 15:14:11 621

（1）选择最有效率的表名顺序(只在基于规则的优化器中有效)：Oracle的解析器按照从右到左的顺序处理FROM子句中的表名，FROM子句中写在最后的表(基础表 driving table)将被最先处理，在FROM子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。如果有3个以上的表连接查询, 那就需要选择交叉表(intersection table)作为基础表, 交叉表是指那个被其他...

2018-03-26 17:26:01 611

原创 Bike Sharing 案例

通过对华盛顿的部分自行车租赁情况数据进行分析，对测试集的自行车租赁数目进行预测。导入数据train = read.csv("train.csv")test = read.csv("test.csv")str(train)str(test)分别对两组数据进行概览，可以发现数据集存在以下特征：$ datetime : 日期$ season : 季节，1—...

2018-03-05 18:33:41 3719

原创 R语言学习：泰坦尼克号生存预测

将一部分泰坦尼克号上的乘客数据（包括是否生还）作为训练集，对测试集中的的乘客生还情况进行预测。导入所用的包library(randomForest)library(dplyr)library(ggplot2)library(mice)导入数据从csv中分别导入训练集和测试集数据train = read.csv("train.csv",header = T,string...

2018-02-23 17:38:27 7175 2

转载 R语言：apply,sapply,tapply用法

https://www.zhihu.com/question/39843392转载自知乎，觉得总结的不错

2018-02-05 10:51:44 30959

原创 R语言学习笔记：时间序列分析

1.生成时间序列ts()ts(data = NA, start = 1, end = numeric(), frequency = 1, deltat = 1, ts.eps = getOption("ts.eps"), class =, names = )data是数值向量或矩阵，数据框将被强制转化为数值向量；start是收集数据的第一年集第一个间隔期，如2018年第1季度，...

2018-01-26 11:29:21 5302

原创 R语言学习笔记：判别分析和聚类分析

1.判别分析：根据已知分类建立判别方法距离判别法：计算距离：dist()dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2)x表示数据矩阵；method用于指定计算方法，默认“euclidean”为欧氏距离，“manhattan”绝对值距离，“maximum”切比雪夫距离，“minkowski”闵...

2018-01-26 10:35:42 4934 3

原创 R语言学习笔记：典型相关分析和对应分析

1.典型相关分析：两组变量之间的相关问题cancor()cancor(x, y, xcenter = TRUE, ycenter = TRUE)x，y为两组变量的数据矩阵；xcenter和ycenter是逻辑值，表示是否中心化，实际中一般采用默认值TRUE注意分析前要对数据进行标准化scale():对数据进行标准化和中心化scale（x, center...

2018-01-25 13:26:37 14610 1

原创 R语言学习笔记：主成分分析及因子分析

1.主成分分析princomp()princomp(formula, data = NULL, subset, na.action, ...)princomp(x, cor = FALSE, scores = TRUE, covmat = NULL, subset = rep(TRUE, nrow(as.matrix(x))), ...)x为数据集；cor默认为FALSE...

2018-01-25 13:00:04 6833

原创 R语言学习笔记：回归分析

1.一元线性回归lm():lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset,...)formula为要拟合的模型；data为...

2018-01-25 12:40:45 8123

原创 R语言学习笔记：方差分析

1.单因素方差分析：适用于单因素A有两个水平或以上，研究个水平对因变量的影响正态假设条件：W检验shapiro.test():原假设为数据来自正态分布方差齐性条件：Bartlett检验（主要用于正态分布的数据）bartlett.test(x, g, ...)x是数据向量或列表（list）；g是因子向量，如果x是列表则忽略g。当使用数据集时，也可以通过formu...

2018-01-25 11:19:45 20771 1

原创 R语言学习笔记：假设检验

1.单正态总体的检验方差已知，检验均值：Z检验z.test():BSDA包，调用格式：z.test(x, y = NULL, alternative = "two.sided", mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95)x，y为样本数据，单样本时忽略y；alternative选择检验类型；mu...

2018-01-24 18:54:13 28679 2

原创 R语言学习笔记：参数区间估计

1.单正态总体的区间估计方差已知，估计均值：Z检验：z.test()：BSDA包，调用格式：z.test(x, y = NULL, alternative = "two.sided", mu = 0, sigma.x = NULL, sigma.y = NULL, conf.level = 0.95)x,y是数值向量，默认y=NULL,即进行单样本的假设检验；alterna...

2018-01-24 18:09:24 19054

原创 R语言学习笔记：参数点估计

1.点估计点估计主要有两种方法，分别是矩估计和极大似然估计，具体原理可参考统计学教材。矩估计需要解n元方程，在R语言中有：解一次方程：uniroot(),调用格式为;uniroot(f,interval,...,lower = min(interval), upper = max(interval), f.lower = f(lower,...),f.upper = f(u...

2018-01-24 16:01:46 5961 1

原创 R语言学习笔记：数据的基本描述

1.分布内置函数：d(概率密度函数，density)，p（累计分布函数，probability）,q（分位数，quantile）,r（伪随机数，random）常用分布：正态分布：_norm，参数：mean,sd 二项分布：_binom，参数：size,prob 卡方分布：_chisq，参数：df,ncp ...

2018-01-24 15:22:48 3027

原创 R语言学习笔记：缺失值的判断与处理

1.判断缺失值函数：is.na()，返回值为逻辑值，TRUE代表缺失，否则为FALSE。函数：complete.cases()，返回值为逻辑值，与is.na()相反，FASLE代表缺失，否则为TRUE。2.判断缺失模式函数：md.pattern():属于mice包，返回值为数据表，结果中“1”代表没有缺失值，“0”代表存在缺失值。第一列的值代表符合其后的每一行缺失情况的样本数，例如

2018-01-24 14:24:48 13445