Machine learning 微科研第1节-CSDN博客

本文链接：https://blog.csdn.net/zzZZZ_z_Z/article/details/126086596

整体上课状态：

89%时间在线

原因：抠手指，走神

终于重拾微科研了，过去6个月

今天的课程比我想象中的简单，在classin课后看回放真的对我这种小白，并且上课时不敢提问的（以前）人来说太友好。

虽然说应该没学过方差，或者是学过但是完全没见过这个公式，但是并不影响理解，特别是在老师详细解释之后理解的更透彻了，虽然后面那个红色的公式我还是不太懂

目前对ML的理解好像还是分类，或者说transformation，从一堆照片中，分类为不同的种类（猫狗鸡鸭牛），写出能够做这件事的Model。

Model, Data, parameter一环扣一环，每个都很重要，越复杂的model能够应对的环境越多，data同时也决定model的样子，相反也需要用合适的model来describe合适的data；更直接的，data直接决定parameter，最简单的——y=ax+b，data图像开口向上a就是正。

Model和training都有两种。Generative model和Discriminative model：前者是要找到生产数据的源头，也就是数据产生的distribution，比如两种可乐，就算味道再像，一个就是百事一个就是可口；后者需要找到数据的不同，但只是找到boundary即可，如“不同”超过判断标准，即比较的东西是不同的，反之“不同”并不够大不够明显，就是一样的

Supervised learning和Unsupervised learning，前者是手把手教学，将每一个data (input)都label上类别，再让函数来分类（找trend），也就是每一个数据对应的值都会提供；后者更加常用，尽管没有那么精确，但更加方便，因为label是不好准备的，而data (input)更容易收集，所以这种training是不知道lable的，其让算法自行exploit数据间的关系。

以上是ML的basic info

来到需要学习的第一个算法----K-means clustering

这个算法的目标不仅是要generate k clusters，因为只有这个目标的话，则没有评判标准，意味着可以随意规划cluster。另一个很重要的目标就是希望每一类数据都是紧凑的，这就需要方差来帮忙，在上面已经截图了该式子，下面这个图更容易理解。还学习了min和argmin的区别