机器学习笔记一

1 什么是机器学习?

是人工智能的一部分,研究如何让计算机从数据中学习某种规律

人工智能包含机器学习,如ibm做过的一个模型:根据不用的用户,认为的对不同用户看到的不同产品的折扣不同,这属于人工智能的范畴但不是机器学习,因为机器学习是需要通过数据让计算机从数据中学习某种规律,但人工智能又不等于大数据,因为有时候机器学习可以通过少量的数据就能找到某种规律

机器学习就是通过计算机程序根据数据去优化某个评价指标;自动的从数据发现规律,使用这些规律做出预测;根据过去预测未来

2机器学习类型

监督式学习:

1)分类,如垃圾邮件/短信检测,车牌号识别,人脸识别,ocr识别,语音识别,医疗图片诊断

2)回归,如二手车估价,预测股票,预测气温,自动驾驶

非监督式学习:

1)聚类,只有数据没有标签

 

什么是机器学习模型?

机器学习模型(machine learning model)是机器学习算法产出的结果,可以将其看作是在给定输入情况下、输出一定结果的函数(function) F。

机器学习模型不是预先定义好的固定函数,而是从历史数据中推导出来的。因此,当输入不同的数据时,机器学习算法的输出会发生变化,即机器学习模型发生改变。

工作流程:

1、抽象成数学问题:如上图,在数据获取之前还需要明确问题,明确我们可以获得什么样的数据,目标是分类还是回归还是聚类的问题,总之就是抽象成数学问题。

2、获取数据:数据决定机器学习结果上限,而算法只是尽可能逼近这个上限。数据要有代表性,否则会出现过拟合或欠拟合

3、数据清洗:真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常点存在,对我们挖据出有效信息造成了一定的困扰,所以我们需要通过一些方法,尽量提高数据的质量。一般包括这几个步骤:分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理等

4、特征工程:目的是筛选出更好的特征,获取更好的训练数据。特征是从数据中抽取出来的对结果预测有用的信息,可以是文本或数据;特征工程是使用专业的背景知识和技巧处理数据,似的特征能在机器学习算法上发生更好的作用的过程,一般认为有特征构建、特征提取、特征选择三个部分

5、数据预处理:1)数据标准化,这是最常用的数据预处理,把某个特征的所有样本转换成均值为0,方差为1,可调用sklearn.preprocessing中的StandardScaler()进行数据的标准化。2)数据归一化,把某个特征的所有样本取值限定在规定范围,一般为[-1,1]或[0,1]。3)数据正规化,把某个特征的所有样本的模长转换为1。4) 数据二值化,把数据的特征取值根据阈值转为为0或者1。5) 数据缺值处理,对于缺失的特征数据,进行数据填补,一般填补的方法有:均值,中位数,众数填补等。6) 数据离群点处理,删除离群点数据。7) 数据类型转换,如果数据的特征不是数值型特征,则需要转换为数值型。

6、模型选择:实际项目中算法选择取决于多种因素,包括数据维度大小、数据质量和数据特征属性;可以利用的计算资源;项目时间预算等。如:想要降维操作,就可以使用主成分分析方法(PCA);想要快速进行手写数字预测,就可以使用决策树或逻辑回归;想要进行数据分层操作,就可以使用分层聚类。如何选择呢?模型准确率,训练时间,可扩展性都是需要考虑的方面

---------------------------------------

python常用库

pandas:Pandas 是一个 Python 库,提供高级的数据结构和各种各样的分析工具。这个软件包的主要特点是能够将相当复杂的数据操作转换为一两个命令。Pandas包含许多用于分组、过滤和组合数据的内置方法,以及时间序列功能。

numpy:NumPy 是科学应用程序库的主要软件包之一,用于处理大型多维数组和矩阵,它大量的高级数学函数集合和实现方法使得这些对象执行操作成为可能。

matplotlib:Matplotlib 是一个用于创建二维图和图形的底层库。藉由它的帮助,你可以构建各种不同的图标,从直方图和散点图到费笛卡尔坐标图。此外,有许多流行的绘图库被设计为与matplotlib结合使用。

sklearn:Scikit-learn 是构建于 Numpy、SciPy 和 Matplotlib 之上的 Python 机器学习库。Scikit-learn 提供了简单易用、高能高效的数据挖掘与数据分析工具。SKLearn 支持多种数据场景,只要简单学习即可上手,还支持代码复用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值