机器学习的知识点

一、常用语言
R语言 (S语言 源于统计,数据探索、统计分析、作图的解释型语言。)

www.r-project.org

Python (瑞士军刀、通用语言、爬虫、网站、 shell)

NumPy SciPy Matplotlib

Matlab 矩阵实验室

WEKA 机器学习与数据挖掘 JAVA环境 图形界面 (hadroop大数据迁移)

二、主要方法
回归预测以及相应的降维技术:线性回归、logistics回归、主成分分析、因子分析、岭回归、LASO

分类器:决策树、朴素贝叶斯、贝叶斯信念网络、支持向量机、提高准确率的Adaboost和随机森林算法。

聚类与孤立点判别

人工神经网络

三、回归
基本思想:利用样本产生拟合方程,从而进行预测。

样本存在误差,学习器将误差也学习了,造成了过拟合问题;

线性回归分析:一元线性;多元线性(曲面、超平面);广义线性等。

非线性回归分析

困难:选定变量(多元)。避免多重共线性,避免过拟合,检验模型是否合理。

函数关系与相关关系(非确定性关系)

相关关系:背后受某种共同因素影响

相关系数 柯西不等式

RSS 残差平方和 OLS

假设检验 t统计量 阈值一般0.05

回归擅长内推插值,不擅长外推归纳

业绩预测 时间序列 季节影响

虚拟变量 (哑变量):

离散、分类变量

加法模型(分类中选n-1个,影响截距)

乘法模型(分类中选n个,影响斜率)

多元线性回归 : 变量选取

逐步回归

向前引入(一元回归开始)

向后剔除(全变量)

衡量标准 :RSS 、相关系数平方、AIC越小越好(赤池信息准则)

回归诊断:

符合正态分布假设?离群点判断;线性模型是否合理?误差是否满足独立、等方差、正态分布等假设?多重共线性?(表现为矩阵不可逆)

多重共线性 Kappa值?

广义线性模型(GLM)

二元变量 S型曲线

非线性模型:

对数法;指数法;幂函数法;(待定系数a、b)

多项式回归

非线性模型的参数估计 nls

三、假设检验
否定域 显著性水平(一般0.05) 概率密度曲线;总体期望

步骤:

建立原假设
构造检验统计量
确定原假设否定域

四、多元线性回归

矩阵运算
广义逆出现奇异性:变量比样本多;多重共线性;

五、岭回归(RR)
加K扰动、惩罚函数(2阶)、约束条件;
岭回归的几何意义;有偏性;
岭回归参数趋向更大时,岭回归系数估计趋向于0;
岭迹图:

岭参数一般选择原则:

缺点:参数选择不够严谨科学。

六、LASSO(套索)

最小绝对值收缩;变量的选择;有偏估计;
思想:构建一阶的惩罚函数
引出弹性网,混合岭回归和lasso;

七、最小角回归(LAR)

lasso的高效解法,类似于向前逐步回归;
相关系数的几何意义(中心化、标准化后):内积,夹角的余弦;
LAR的几何意义:利用变量与残差向量的夹角;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值