文章目录
分类模型
为什么不能使用线性回归模型直接进行回归
为什么可以使用连接函数将解释变量和被解释变量连接起来,并将y的预测值看作y=1发生概率
连接函数的两种取法
论文中要给出这个公式
自变量中有分类变量如何处理
预测结果差怎么办
可能提高了预测效果但会出现过拟合的现象,对样本内的数据效果很好,对于样本外的数据可能很差。
通过训练组与验证组进行交叉验证
fisher线性判别分析
聚类模型
K-means聚类算法
k-means++算法
k(分为几类)的值需要由经验确定。
数据若量纲不一致时需要进行z标准化。
系统聚类
类的距离的不同定义方法
最短距离法
最长距离法
组间平均连接法
组内平均连接法
重心法
畸变程度与聚合系数
DBSCAN算法
不同聚类算法的优缺点
k-means++可解决(2)(3)两个问题
对于DBSCAN算法
不同算法的选择:只有两个指标,且画出散点图之后呈现出一些几何形状的分布,则可以使用DBSCAN;其他情况下使用系统聚类。