R统计方法整理1.1

最新推荐文章于 2024-04-12 21:05:43 发布

Chachi Chan

最新推荐文章于 2024-04-12 21:05:43 发布

阅读量1.2k

点赞数

分类专栏： R学习

本文链接：https://blog.csdn.net/weixin_43810584/article/details/114127846

版权

本文介绍了R语言中常用的统计方法，包括平均值、中位数、模式的计算，线性回归、多重回归的建立与可视化，逻辑回归、标准分布、二项分布、泊松回归的模型创建，协方差分析、时间序列分析、非线性最小二乘方法的运用，以及决策树和随机森林算法的实现。此外，还涉及了生存分析和卡方检验的相关函数。

摘要由CSDN通过智能技术生成

R函数

平均值，中位值，模式

mean（）求平均值

mean(x, trim = 0, na.rm = FALSE, ...)

x是输入向量。
trim用于从排序向量的两端丢弃一些观察结果。
na.rm用于从输入向量中删除缺失值。
median()

x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
直接输出平均值
result <- mean(x)
result.mean <- mean(x)
输出：
print(result.mean)
#直接输出名字也可以输出
result

#修剪，会先排序，然后去掉左右两边最大最小前三名，再求平均值
result.mean <-  mean(x,trim = 0.3)
# 去除NA值  na.rm = TRUE
result.mean <-  mean(x,na.rm = TRUE)

Median( )中位数

median(x, na.rm = FALSE)

x是输入向量。
na.rm用于从输入向量中删除缺失值。

Mode模式

可以包含数字，字符，自定义编写输出出现次数最多的值

# Create the function.
getmode <- function(v) {
   uniqv <- unique(v)
   uniqv[which.max(tabulate(match(v, uniqv)))]
}

# Create the vector with characters.
charv <- c("o","it","the","it","it",1,3,5)

# Calculate the mode using the user function.
result <- getmode(charv)
print(result)

线性回归

回归分析用于建立两个变量之间的关系模型
预测变量X，响应变量Y

y = ax + b

y是响应变量。
x是预测变量。
a和b被称为系数常数。

建立回归的步骤

收集已有的两个变量数据
lm()函数创建关系模型
从创建的模型中找到系数，并用这些创建数学方程
获得关系模型的摘要以了解预测中的平均误差（残差）
预测新值，predict()函数

lm()函数

lm(formula,data)

公式是表示x和y之间的关系的符号。
数据是应用公式的向量。

predict()函数

predict(object, newdata)

object是已使用lm()函数创建的公式。
newdata是包含预测变量的新值的向量。

举例

# The predictor vector.
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)

# The resposne vector.
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

# Apply the lm() function.
relation <- lm(y~x)

# Find weight of a person with height 170.
a <- data.frame(x = 170)    ???这里用到一个数据框
result <-  predict(relation,a)
print(result)

图形方式可视化回归

# Create the predictor and response variable.
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)
relation <- lm(y~x)

# Give the chart file a name.
png(file = "linearregression.png")

# Plot the chart.
plot(y,x,col = "bl