![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
statistic
文章平均质量分 53
大叔爱学习.
所谓至明,不过至专。
展开
-
5003笔记 Statistic Chapter9-Tree and Ensemble methods
R1,R2,R3就是leaf node页节点。internal node内节点,就是判断的条件。决策树的评价指标是RSS,对于决策树来说,我们如何找他的预测值呢?对于回归树而言,我们会通过recursive binary splitting和greedy algorithm树其实用的是贪心算法Greedy Algorithm,所以它只是在当前分叉时候,做最好的决策,而不是选择将来更好的结果的切分,不同于动态规划。所以回归树的计算量是巨大的。Gini index表示k的...原创 2021-11-21 17:09:34 · 1103 阅读 · 0 评论 -
5003笔记 Statistic Chapter8- Feature Selection
Best subset selection:计算成本太高了、可能产生过拟合的模型注意Forward和Backward都是考点注意,并不是Mp模型是最好的,因为添加新的模型时候,可能不是增加模型准确率,而是降低。当出现降低的时候,我们选择让模型准确率下降最小的,添加上去。因为,Mp不是最好的模型。一开始是满的特征,然后尝试所有的x特征,去除对性能减少最大的,如果没有减少的,就去除提升最少的。Indirectly:通过training error修正test erro...原创 2021-11-20 06:38:20 · 271 阅读 · 0 评论 -
5003笔记 Statistic Chapter7-Missing data and class imbalance
Deterministic imputation就是回归预测,可以看出预测的点其实都在回归线上。Random imputation也不是完全随机,而是符合原始数据的分布,或者可以理解成在回归线上加了一个error。p0是accuracy,pe是随机分类器出的随机正确率。...原创 2021-11-19 14:51:07 · 357 阅读 · 0 评论 -
5003笔记 Statistic Chapter6-Cross validation and bootstrapping
训练误差和测试误差不是一个重要程度,训练误差可以低于测试误差。测试误差小,说明模型泛化性能好。当test error开始上升时,模型就是过拟合了。Train和Test 一般都有相同的分布。Validation一般是从Train拆出来的。随机拆分Train和Test,这里有一个问题,可能重要信息都在Test里。这样的拆分随机性太大,不稳定。Cross Validation交叉检验5 折 交叉检验,拆分成5等份,并且里面的index数已经shuffle。回归用MSE,分类用..原创 2021-11-19 12:59:40 · 878 阅读 · 0 评论 -
5003笔记 Statistic Chapter5-Introduction to classification techniques(LR LDA KNN SVM)
p是指分到1的概率,1-p就是分到0的概率。所以Odd ratio就是分到1的概率占分到0的概率的多少倍。Log Odd ratio是一个线性函数,就是线性回归的y。fk(x) = P(x=x|y=k),f(x)就是一个概率密度函数。σ2是方差,我们假设每个K类的方差一样,总方差就是对不同类别的方差加权平均。当我们遇到等值2分类时,决策边界就是(u1+u2)/2核心思想:找到一个超平面,将特征空间分开。SVM是直的,线性回归可以是...原创 2021-11-19 10:18:46 · 413 阅读 · 0 评论 -
5003笔记 Statistic Chapter4-High dimentional visulization and analytics
常见的聚类算法:Hierarchical, K-means, Gaussian mixture, Density5003的K-means和5318的不同。1)选取cluster个数K2)给所有点随机分配不同的Kth3)计算每个Kth中心点的位置4)计算所有点和K个中心点的距离,把该点分配为距离最近的中心点类型的cluster5)重新计算K个cluster的中心点,不断迭代6)当中心点位置改变收敛时,停止迭代通过WSS和Elbow point来选择合适的K。注意这里WSS是求在.原创 2021-11-18 14:34:34 · 239 阅读 · 0 评论 -
5003笔记 Statistic Chapter3-Density Estimation
Density Estimation:密度估计 Cumulative distribution:累计分布函数F(x) 注意,均值mean E(x) = np, Var(x) = np(1-p)Continuous distribution:连续分布连续的边界不重要,离散的边界重要这里连续变量的PDF(probability density function)概率密度函数不同于上面离散变量的PDF(probality distribution function)概率分布函数。我们的原创 2021-11-17 23:08:25 · 470 阅读 · 0 评论 -
R语言 复习笔记(4)High Dimentional Visualization and Analysis
week 41 Movie rating data1.1 Data precossing原创 2021-09-21 19:54:22 · 281 阅读 · 0 评论 -
R语言 复习笔记(2)Regression and smoothing
1 Melbourne house prices regression model1.1 load the data1.2 Initial data analysissubset(melb_house, Suburb == “Brunswick” | Suburb == “Craigieburn” | Suburb == “Hawthorn”):可以通过|来取一个列的多个值。library(tidyr)subset(melb_house, Suburb %in% c(“Brunswick”,原创 2021-09-20 19:03:04 · 383 阅读 · 0 评论 -
R语言 复习笔记(3)Density Estimation
Basic Gaussian Simulationset.seed(5003): 设置种子值rnorm(n = 100, mean = 10, sd = 10): 正太分布/高斯分布,n是样本数,mean是均值,sd是标准差。geom_histogram: ggplo画直方图1.2 Reproducible RGNidentical: 判断两个list,是否元素一一相等。1.3 Log likelihoodsum(log(dnorm(norm_data_ll, mean = x, s原创 2021-09-20 19:02:49 · 1519 阅读 · 0 评论 -
5003笔记 Statistic Chapter2-Regression and Smoothing
注意ε是误差值。这里老师是用Residual sum of squares来解释的最小二乘。邹博老师在机器学习里是用的最大似然函数解释的。当然还有矩阵解释以及空间图像解释。对比邹博老师用矩阵求的θ。这个适用于多特征,上面的计算公式,只是适用于一元一次方程。标准误差Standard Error标准误差又称均方根误差样本标准差(SD)与样本标准误差(SE)关于95%置信区间...原创 2021-09-11 09:16:55 · 119 阅读 · 0 评论 -
5003笔记 Statistic Chapter1-Basics of statistical computing and visualization
课程大纲测评Population & SampleParameters & StatisticsNumeric & GraphicsR 语言Classical data type in R原创 2021-09-10 11:29:30 · 96 阅读 · 0 评论