机器学习是一种人工智能(AI),它为计算机提供了学习的能力,而无需明确编程。机器学习侧重于计算机程序的开发,这些程序在暴露于新数据时可能会发生变化。在本文中,我们将看到机器学习的基础知识,以及使用python实现简单的机器学习算法。
设置环境
Python社区开发了许多模块来帮助程序员实现机器学习。在本文中,我们将使用numpy,scipy和scikit-learn模块。我们可以使用cmd命令安装它们:
pip install numpy scipy scikit-learn
一个更好的选择是下载python的miniconda或anaconda软件包,这些软件包预先捆绑了这些软件包。按照此处给出的说明使用anaconda。
机器学习概述
机器学习涉及使用给定数据集训练计算机,并使用该训练来预测给定新数据的属性。例如,我们可以通过喂养1000张猫的图像和1000张不是猫的图像来训练计算机,并且每次都告诉计算机图片是否是猫。然后,如果我们向计算机显示一个新图像,那么从上面的训练中,计算机应该能够判断这个新图像是否是猫。
训练和预测的过程涉及使用专门的算法。我们将训练数据提供给算法,算法使用该训练数据来预测新的测试数据。一种这样的算法是K-Nearest-Neighbor分类(KNN分类)。它接收测试数据,并从测试数据集中找到与该数据最近的k数据值。然后选择最大频率的邻居并