2、机器学习
2.1 衡量距离的公式有哪些?
欧氏距离、
余弦相似度距离
KL散度(比较两个概率分布的接近程度)
2.2 监督学习、半监督学习、无监督学习
监督学习是使用已知正确答案的示例来训练网络的。
无监督学习适用于你具有数据集但无标签的情况。无监督学习采用输入集,并尝试查找数据中的模式。比如,将其组织成群(聚类)或查找异常值(异常检测)。
半监督学习 使用无监督学习对数据做处理,之后使用监督学习手段做模型的训练和预测
2.3 降维方法有哪些?
降维的作用:
- 降低时间复杂度和空间复
- 节省了提取不必要特征的开销
- 去掉数据集中夹杂的噪
降维方法
1.缺失值比率
2.主成分分析法
3.反向特征消除(训练模型,每次删除一个维度计算模型性能,确定对模型影响最小的变量删除掉)
4.低方差比率(变化不大删除该属性),高相关滤波(可相互替代)
2.4 聚类算法有哪些,各自优缺点
k-means:随机选择k个中心,把其他点往其周围分配;适合球形数据、对噪声敏感
DB-SCAN(基于密度):从任意一个点开始,在r半径内就合并为该类,不断扩展,要是不再这类里面就新建一个类;对噪声不敏感;能发现任意形状的聚类;聚类的结果与参数有很大的关系
基于网络的方法:将数据空间划分为网格单元,将数据对象集映射到网格单元中,并计算每个单元的密度。根据预设的阈值判断每个网格单元是否为高密度单元,由邻近的稠密单元组形成”类“。速度快;但对参数敏感,无法处理不规则高维数据
2.5 逻辑回归中sigmoid函数的好处?以及为什么用极大似然?
逻辑回归用sigmoid的原因:
因为线性回归模型的预测值为实数,而样本的类标记为(0,1),我们需要将分类任务的真实标记y与线性回归模型的预测值联系起来,也就是找到广义线性模型中的联系函数。sigmoid函数,它是连续的,而且能够将z转化为一个接近0或1的值。
逻辑回归采用极大似然函数做为损失函数的原因:
一是最大似然估计就是通过已知结果去反推最大概率导致该结果的参数;刚好和逻辑回归是一致的
二是极大似然函数为凸函数,局部最优解即为全局最优解(极值为最值)
2.6 线性回归
线性回归是回归分析的一种,评估的自变量X与因变量Y之间是一种线性关系。在线性回归中,我们使用平方损失函数
2.7 逻辑回归
逻辑回归的要拟合的模型 是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。
只不过,线性模型,无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。
2.8 SVM
https://blog.csdn.net/u012990623/article/details/40272619
支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。