背景:笔者前几年已经陆陆续续学并运用了一些机器学习知识了,但还没有系统学习过,此系列是自行记录重难点的,请忽略格式与美观问题。第一套课程预计28、29号两天补完。
kaggle依据晚了将近10年了,赶紧补起来
- 监督学习:预测结果如果是离散值(很多时候是类别类型,比如邮件分类问题中的垃圾邮件/普通邮件,比如用户会/不会购买某商品),那么我们把它叫做分类问题(classification problem)。如果预测结果是连续值(比如房价,股票价格等等),那么我们把它叫做回归问题(regression problem)。
- 解决监督学习问题的,比如最经典的用于分类问题的朴素贝叶斯、逻辑回归、支持向量机等等;比如说用于回归问题的线性回归等等。
- 无监督学习:给我们的样本并没有给出『标签/标准答案』,就是一系列的样本。而我们需要做的事情是,在一些样本中抽取出通用的规则。包括关联规则和聚类算法在内的一系列机器学习算法都属于这个范畴。
- 半监督学习:类问题给出的训练数据,有一部分有标签,有一部分没有标签。我们想学习出数据组织结构的同时,也能做相应的预测。此类问题相对应的机器学习算法有自训练(Self-Training)、直推学习(Transductive Learning)、生成式模型(Generative Model)等。
- 依据比赛各自的标准和历史评价去做模型。