《集体智慧编程》摘要

最新推荐文章于 2020-02-24 17:00:38 发布

_萤火

最新推荐文章于 2020-02-24 17:00:38 发布

阅读量375

点赞数 1

分类专栏：机器学习文章标签：算法

本文链接：https://blog.csdn.net/winter_wu_1998/article/details/81198046

版权

1 篇文章 0 订阅

订阅专栏

皮尔逊相关度评价
- 适合于数据不规范的情况
- 比如某一影评者的打分总是对于平均水平偏离很大（比如总是偏低），此时用欧几里得距离计算出来的差别不大，无法很好地分类
- 原理是根据不同人的评分将影片映射为空间中的点，然后对于大量的点拟合一条线，比较不同人的线的相关度

无监督学习的目的是发现数据包含的内在结构
K-均值聚类
- 输入数据一般需要做缩放，如标准化
  - 原理：K均值是建立在距离度量上的，因此不同变量间如果维度差别过大，可能会造成少数变量“施加了过高的影响而造成垄断”。
- 优点：运行速度快，能够处理的数据量大，且易于理解。
- 缺点：算法性能有限，在高维上可能不是最佳选项。

将要解决的问题转化为一个成本函数，而我们的任务就是是的成本函数最小
最简单的方法就是随机搜索，他是我们评估其他算法的基线（base line）
爬山算法
- 类似于梯度下降法
- 缺点在于可能求得的局部最小值而不是全局最小值
- 可以用随机重复爬山法改进
模拟退火算法
- 设定一个接受概率函数，他与自定的温度变量以及成本值相关。
- 当温度高的时候，成本值稍大的解也可能接受（所以在初始阶段解可能反而变差），但是温度在不断迭代中不断下降，而温度低的时候只有成本值很低的解才能被接受
遗传算法
- 先随机生成一组解，称之为种群，计算每个个体的成本函数，得到一个有序列表
- 精英选拔法
  - 将成本最低的一部分加入新的种群中，剩余的由修改后的全新解代替
- 两种修改解的方法
  - 变异
    - 将现有解做微小随机的改动
  - 交叉
    - 选取最优解中的两个按照某种方式进行结合
  - 通常变异的概率很小而交叉的概率很大
- 结束指令
  - 在经过一段时间的迭代后，族群任然保持稳定，此时可以停止了

朴素的贝叶斯分类器
- 假设每个单词出现的概率是互相独立的
- 但实际上是不成立的，但是我们可以将计算结果进行比较，观察那个分类的概率更大
- 为了避免重要邮件的误删，我们可以为每个分类定义一个最小阈值，如果计算出来的结果都小于这个阈值，我们就划分到未知分类中
- 这种算法的优势主要在于训练所需的时间和内存较少
费舍尔分类器
- 不懂 (–_--!)

决策树实际上就是根据数据的feature的一系列的if…then…结构，最终得到输出
- 输出可以是分类或者数值
决策树的难点在于判断条件（feature）选择的先后
- 举例，为什么以A条件作为根（即第一个判断条件），为什么条件B在条件C前判断
- 挑选的方法有基尼不纯度，熵增益等
  - 实质是选取尽可能将同种结果放在一个分类的条件
为了避免过拟合以及减少收集信息的难度，我们往往采取剪枝的方法忽略那些对结果影响不大的feature
决策树的优点在于可以直观的理解判断的理由和过程，不像深度学习是个黑箱
缺点则在于对于输出结果过多的情况构建太复杂，还有就是容易被攻击
- 这里的攻击是指人为的改变一些特征，使得分类器判断错误。常见于垃圾邮件躲避检测中。因为决策树最终在底层判断是基于单个条件的，攻击者往往只需要改变很少的特征就可以逃过监测。

KNN（K最邻近算法）
- K过小则容易受到噪声和错误数据的影响，过大则容易将不相关数据也包括进去
- 可以在无需重新计算的情况下加入新的数据，适合数据量很大的情况

普通的SVM分类超平面只能应对线性可分的情况，而对于线性不可分的情况我们则需要引入一个Kernel，这个Kernel可以把数据集从低维映射到高维，使得原来线性不可分的数据集变得线性可分
- 其实就是深度学习里的激活函数
我们想要用一个超平面（二维为一条线）将数据分类，但是满足条件的超平面有很多，SVM就是找出其中最好的一个
- 方法是尽可能的使最靠近分离超平面的数据与超平面的距离变大
- 我们不需要考虑所有数据，只需要考虑靠近平面的那些数据，这些数据又称为支持向量