机器学习的知识点

最新推荐文章于 2023-12-12 22:10:42 发布

星点xingdian

最新推荐文章于 2023-12-12 22:10:42 发布

阅读量145

点赞数 1

分类专栏：算法大数据文章标签：机器学习深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingdianp/article/details/110505519

版权

大数据同时被 2 个专栏收录

50 篇文章 2 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一、常用语言
R语言（S语言源于统计，数据探索、统计分析、作图的解释型语言。）

www.r-project.org

Python (瑞士军刀、通用语言、爬虫、网站、 shell)

NumPy SciPy Matplotlib

Matlab 矩阵实验室

WEKA 机器学习与数据挖掘 JAVA环境图形界面（hadroop大数据迁移）

二、主要方法
回归预测以及相应的降维技术：线性回归、logistics回归、主成分分析、因子分析、岭回归、LASO

分类器：决策树、朴素贝叶斯、贝叶斯信念网络、支持向量机、提高准确率的Adaboost和随机森林算法。

聚类与孤立点判别

人工神经网络

三、回归
基本思想：利用样本产生拟合方程，从而进行预测。

样本存在误差，学习器将误差也学习了，造成了过拟合问题；

线性回归分析：一元线性；多元线性（曲面、超平面）；广义线性等。

非线性回归分析

困难：选定变量（多元）。避免多重共线性，避免过拟合，检验模型是否合理。

函数关系与相关关系（非确定性关系）

相关关系：背后受某种共同因素影响

相关系数柯西不等式

RSS 残差平方和 OLS

假设检验 t统计量阈值一般0.05

回归擅长内推插值，不擅长外推归纳

业绩预测时间序列季节影响

虚拟变量（哑变量）：

离散、分类变量

加法模型（分类中选n-1个，影响截距）

乘法模型（分类中选n个，影响斜率）

多元线性回归：变量选取

逐步回归

向前引入（一元回归开始）

向后剔除（全变量）

衡量标准：RSS 、相关系数平方、AIC越小越好（赤池信息准则）

回归诊断：

符合正态分布假设？离群点判断；线性模型是否合理？误差是否满足独立、等方差、正态分布等假设？多重共线性？（表现为矩阵不可逆）

多重共线性 Kappa值？

广义线性模型（GLM）

二元变量 S型曲线

非线性模型：

对数法；指数法；幂函数法；（待定系数a、b）

多项式回归

非线性模型的参数估计 nls

三、假设检验
否定域显著性水平（一般0.05）概率密度曲线；总体期望

步骤：

建立原假设
构造检验统计量
确定原假设否定域

四、多元线性回归

矩阵运算
广义逆出现奇异性：变量比样本多；多重共线性；

五、岭回归（RR）
加K扰动、惩罚函数（2阶）、约束条件；
岭回归的几何意义；有偏性；
岭回归参数趋向更大时，岭回归系数估计趋向于0；
岭迹图：

岭参数一般选择原则：

缺点：参数选择不够严谨科学。

六、LASSO（套索）

最小绝对值收缩；变量的选择；有偏估计；
思想：构建一阶的惩罚函数
引出弹性网，混合岭回归和lasso；

七、最小角回归（LAR）

lasso的高效解法，类似于向前逐步回归；
相关系数的几何意义（中心化、标准化后）：内积，夹角的余弦；
LAR的几何意义：利用变量与残差向量的夹角；

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。