hello大家好!最近整理了一下机器学习的材料,就想着再出一篇机器学习的内容。我的笔记都是基本上一脉相传的,前后篇都有所呼应,大家有兴趣的话也可以找找看哈~
这篇文章也是基于我之前学习的经验与经历而写,也参考了一下带我做项目的教授的教材,不是那种很精细很全面的讲解,而是挑一些重点和难点,由点到面来讲,有些地方大家要是不懂的,可以去网上查查资料,或者评论区打出来也可以呀~
总结性的内容放在文章末尾,那么接下来就直接进入正题吧~
一、监督学习
监督学习(Supervised Learning)是一种机器学习方法,广泛应用于各种分类和回归任务。在监督学习中,模型从已标注的数据中学习,以便对新数据进行预测。
监督学习是你有一个数据集,这个数据集包含特征和目标,算法试图学习从特征到目标的映射。
典型的应用是,例如,市场预测,人口增长预测,图像分类,对象检测等。
通过上图你会对监督学习有一个大概的印象,下面让我们来进一步看看监督学习的具体任务,回归与分析
1、回归(regression)
简单来说,回归(Regression)任务是预测一个连续的值。例如,预测股票价格或房价,这些输出值是连续的数值。
在回归中,你会有输入值。 你试着把它映射成一个数字,例如,你想预测股票价格,或者你想预测天气,明天,温度,所以你想预测这个数字,然后就像其他监督学习一样,你试着找到最佳映射。监督学习的一个简单例子是线性回归。
#在上述例子中,蓝色代表数据,红色代表模型,左边的是线性的,右边的是非线性的。在现实中,其实大部分的运用场景都是非线性的
#人们尝试着通过回归的算法和模型预测数字将数据集映射到特征向量空间中
2、分类(classification)
简单来说,分类(Classification)任务是将输入数据分配到离散的类别。例如,垃圾邮件分类就是一种二分类任务,模型需要将电子邮件分类为“垃圾邮件”或“非垃圾邮件”。
分类任务不同于回归。你没有将你的特征映射到一个实数,而是映射到类指示符,所以这将是整数。但同样,你要寻找的是从X到Y的映射。
#图中的y在这里是一个 整数级指标
#对于输入空间的一个子集,学习到的函数 f 不能决定 y。我们称其为 "决策边界",也就是红色的线
#这里一个是用了线性分类器,一个是非线性分类器,蓝色与绿色代表着不同类别的数据
二、无监督学习
无监督学习(Unsupervised Learning)也是一种机器学习方法,在没有明确标签或目标值的情况下,从数据中寻找隐藏的结构或模式。与监督学习不同,无监督学习不依赖已标注的数据,而是试图发现数据中的内在关系。这种方法在数据探索、降维、聚类等任务中有广泛应用。
让我们来举几个经典的例子
1、聚类(Clustering)
聚类(Clustering)就是将相似的样本分组,形成簇。聚类常用于数据探索,帮助理解数据的分布和结构。
#图中所示,这里有三个集群,你要做的就是写下一个机器学习算法,使得他可以以一种非常可靠的方式识别这些聚类,具体的代码和实现方法我在后面的文章还会提到
2、降维(Dimensionality Reduction)
降维(Dimensionality Reduction)就是将高维数据映射到低维空间,保留尽可能多的信息。降维有助于数据可视化和减少计算复杂度。
#这里你通常有一个非常高维的空间特征空间,你想找到一个低维的空间。所以你本质上是在寻找从d维空间到一个次素数维空间的映射,其中素数小于d。 但是这里会有一个约束,因为你想写一个映射,最大限度地保留原始数据集中的信息,所以D应该在低维潜在表示中近似为D'。
三、小结
本篇文章也只是初步的介绍,更进一步的具体介绍,比如knn,pca这些算法和程序会在后面提及
至于Python教程我推荐:简介 - Python教程 - 廖雪峰的官方网站
这位大佬讲的挺好的,内容都是免费的,大家有时间可以去看看,东西都挺全的
至于相关库的教程,其实b站都很详细了,大家去搜一下,np、sk、pad各种各样的库的教程都有,用多了就学会了
最后再给大家上一张图吧~
这是对于机器学习的一个大的分类,算是对之前讲过的东西的小总结吧~
那本期文章就到这里啦,有问题的朋友可以直接在评论区打出~~拜拜~