一、常用语言
R语言 (S语言 源于统计,数据探索、统计分析、作图的解释型语言。)
www.r-project.org
Python (瑞士军刀、通用语言、爬虫、网站、 shell)
NumPy SciPy Matplotlib
Matlab 矩阵实验室
WEKA 机器学习与数据挖掘 JAVA环境 图形界面 (hadroop大数据迁移)
二、主要方法
回归预测以及相应的降维技术:线性回归、logistics回归、主成分分析、因子分析、岭回归、LASO
分类器:决策树、朴素贝叶斯、贝叶斯信念网络、支持向量机、提高准确率的Adaboost和随机森林算法。
聚类与孤立点判别
人工神经网络
三、回归
基本思想:利用样本产生拟合方程,从而进行预测。
样本存在误差,学习器将误差也学习了,造成了过拟合问题;
线性回归分析:一元线性;多元线性(曲面、超平面);广义线性等。
非线性回归分析
困难:选定变量(多元)。避免多重共线性,避免过拟合,检验模型是否合理。
函数关系与相关关系(非确定性关系)
相关关系:背后受某种共同因素影响
相关系数 柯西不等式
RSS 残差平方和 OLS
假设检验 t统计量 阈值一般0.05
回归擅长内推插值,不擅长外推归纳
业绩预测 时间序列 季节影响
虚拟变量 (哑变量):
离散、分类变量
加法模型(分类中选n-1个,影响截距)
乘法模型(分类中选n个,影响斜率)
多元线性回归 : 变量选取
逐步回归
向前引入(一元回归开始)
向后剔除(全变量)
衡量标准 :RSS 、相关系数平方、AIC越小越好(赤池信息准则)
回归诊断:
符合正态分布假设?离群点判断;线性模型是否合理?误差是否满足独立、等方差、正态分布等假设?多重共线性?(表现为矩阵不可逆)
多重共线性 Kappa值?
广义线性模型(GLM)
二元变量 S型曲线
非线性模型:
对数法;指数法;幂函数法;(待定系数a、b)
多项式回归
非线性模型的参数估计 nls
三、假设检验
否定域 显著性水平(一般0.05) 概率密度曲线;总体期望
步骤:
建立原假设
构造检验统计量
确定原假设否定域
四、多元线性回归
矩阵运算
广义逆出现奇异性:变量比样本多;多重共线性;
五、岭回归(RR)
加K扰动、惩罚函数(2阶)、约束条件;
岭回归的几何意义;有偏性;
岭回归参数趋向更大时,岭回归系数估计趋向于0;
岭迹图:
岭参数一般选择原则:
缺点:参数选择不够严谨科学。
六、LASSO(套索)
最小绝对值收缩;变量的选择;有偏估计;
思想:构建一阶的惩罚函数
引出弹性网,混合岭回归和lasso;
七、最小角回归(LAR)
lasso的高效解法,类似于向前逐步回归;
相关系数的几何意义(中心化、标准化后):内积,夹角的余弦;
LAR的几何意义:利用变量与残差向量的夹角;