统计
文章平均质量分 59
大叔爱学习.
所谓至明,不过至专。
展开
-
5003笔记 Statistic Chapter5-Introduction to classification techniques(LR LDA KNN SVM)
p是指分到1的概率,1-p就是分到0的概率。所以Odd ratio就是分到1的概率占分到0的概率的多少倍。Log Odd ratio是一个线性函数,就是线性回归的y。 fk(x) = P(x=x|y=k),f(x)就是一个概率密度函数。 σ2是方差,我们假设每个K类的方差一样,总方差就是对不同类别的方差加权平均。 当我们遇到等值2分类时,决策边界就是(u1+u2)/2 核心思想:找到一个超平面,将特征空间分开。SVM是直的,线性回归可以是...原创 2021-11-19 10:18:46 · 406 阅读 · 0 评论 -
5003笔记 Statistic Chapter4-High dimentional visulization and analytics
常见的聚类算法: Hierarchical, K-means, Gaussian mixture, Density 5003的K-means和5318的不同。 1)选取cluster个数K 2)给所有点随机分配不同的Kth 3)计算每个Kth中心点的位置 4)计算所有点和K个中心点的距离,把该点分配为距离最近的中心点类型的cluster 5)重新计算K个cluster的中心点,不断迭代 6)当中心点位置改变收敛时,停止迭代 通过WSS和Elbow point来选择合适的K。注意这里WSS是求在.原创 2021-11-18 14:34:34 · 233 阅读 · 0 评论 -
5003笔记 Statistic Chapter3-Density Estimation
Density Estimation:密度估计 Cumulative distribution:累计分布函数F(x) 注意,均值mean E(x) = np, Var(x) = np(1-p) Continuous distribution:连续分布 连续的边界不重要,离散的边界重要 这里连续变量的PDF(probability density function)概率密度函数不同于上面离散变量的PDF(probality distribution function)概率分布函数。我们的原创 2021-11-17 23:08:25 · 452 阅读 · 0 评论 -
R语言 复习笔记(4)High Dimentional Visualization and Analysis
week 4 1 Movie rating data 1.1 Data precossing原创 2021-09-21 19:54:22 · 265 阅读 · 0 评论 -
R语言 复习笔记(2)Regression and smoothing
1 Melbourne house prices regression model 1.1 load the data 1.2 Initial data analysis subset(melb_house, Suburb == “Brunswick” | Suburb == “Craigieburn” | Suburb == “Hawthorn”):可以通过|来取一个列的多个值。 library(tidyr) subset(melb_house, Suburb %in% c(“Brunswick”,原创 2021-09-20 19:03:04 · 368 阅读 · 0 评论 -
R语言 复习笔记(3)Density Estimation
Basic Gaussian Simulation set.seed(5003): 设置种子值 rnorm(n = 100, mean = 10, sd = 10): 正太分布/高斯分布,n是样本数,mean是均值,sd是标准差。 geom_histogram: ggplo画直方图 1.2 Reproducible RGN identical: 判断两个list,是否元素一一相等。 1.3 Log likelihood sum(log(dnorm(norm_data_ll, mean = x, s原创 2021-09-20 19:02:49 · 1499 阅读 · 0 评论 -
R语言 复习笔记(1)R Basic Operation
Week 1 tutorial R语言的基本操作 2.1 Read read.csv():读取csv文件 2.2 Data Frame head():检查数据前10行 class():返回数据类型 dim():数据维度 nrow():数据行数 $:可以直接找到数据的属性 [[]]:里面放上列名,直接找到该列 cereal[1:10,]:提取1到10行 subset(data, col_name == “value”):在data里找到列的值为value的所有行数据 2.3 Factors read.cs原创 2021-09-19 18:51:28 · 325 阅读 · 0 评论 -
5003笔记 Statistic Chapter2-Regression and Smoothing
注意ε是误差值。这里老师是用Residual sum of squares来解释的最小二乘。邹博老师在机器学习里是用的最大似然函数解释的。当然还有矩阵解释以及空间图像解释。 对比邹博老师用矩阵求的θ。这个适用于多特征,上面的计算公式,只是适用于一元一次方程。 标准误差Standard Error 标准误差又称均方根误差 样本标准差(SD)与样本标准误差(SE) 关于95%置信区间 ...原创 2021-09-11 09:16:55 · 115 阅读 · 0 评论 -
5003笔记 Statistic Chapter1-Basics of statistical computing and visualization
课程大纲 测评 Population & Sample Parameters & Statistics Numeric & Graphics R 语言 Classical data type in R原创 2021-09-10 11:29:30 · 91 阅读 · 0 评论