人工智能之机器学习

文柏AI共享

已于 2024-10-01 23:03:40 修改

阅读量500

点赞数 20

文章标签：人工智能机器学习

于 2024-10-01 23:00:34 首次发布

本文链接：https://blog.csdn.net/weixin_50229673/article/details/142675824

版权

机器学习概念篇

大家好!书接上回,这个板块到了人工智能相关.首先和大家介绍的是人工智能中最重要的一个内容—机器学习.小编将从以下四个大的方向和看官老爷娓娓道来…

一概述

机器学习(Machine Learning)简称ML,是实现人工智能的重要方法.

机器学习‌是一种多领域交叉学科，涉及‌概率论、‌统计学、‌逼近论、‌线性代数、‌高等数学等多门学科。它专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，从而不断改善自身的性能。它是人工智能的核心，使计算机具有智能的根本途径。
机器学习通过使用算法从数据中自动创建模型。它不需要明确编程，而是通过训练数据来学习并做出预测或判断。

二分类

在讲分类前先和客官科普几个名词,它是分析机器学习类型的基础.

# 特征:即描述事务属性的一列数据.

# 样本:描述事务的相关信息的一行数据,通常也叫一条记录.多条样本组成数据集.

# 标签/目标:模型要预测的那一列数据.在训练集中是我们已知的结果,在新数据集中是预测后想要看到的结果.

# 数据集:我们通常把数据集分成两个部分,一部分是训练集,即在训练模型时使用的数据;另一部分是测试集,即在测试数据时使用的数据.通常训练集和测试集的比例为8:2 或者 7:3.

机器学习的具体分类如下:

有监督学习:简单来说就是有特征有标签,它又分两种情况,标签连续我们称为回归任务;标签不连续我们称为分类任务.
无监督学习:简单来说就是有特征无标签,这种学习方式我们根据样本间的相似性采用聚类分析.
半监督学习:此类学习特点是有特征部分有标签,主要目的是降低标注标签成本.
强化学习:简单理解就是根据环境状态进行行动,获得最多累计奖励的过程.这是机器学习下分领域深度学习中的内容(后面会单独介绍).

三建模流程

3.1 获取数据

通过业务部分获数据,或者自己搜集数据.我们通过Pandas提供的API读取到内存中进行操作.

3.2 数据处理

原始数据中往往存在一些对训练结果不重要和严重影响结果的数据.比如:缺失值/异常值等等 .

缺失值填充处理:

.fillna(0) # 用固定值0填充缺失值.

Series对象.fillna(Series对象.mean()) # 用某列的平均值填充.
缺失值删除处理:

通过.dropna()方法删除占比很小且对结果影响几乎为0 的缺失值.
异常值筛选处理:

通过filter()过滤出需要的数据.

3.3 特征工程

利用专业背景知识和技巧处理数据, 让机器学习算法效果最好.主要分以下几个部分.

3.3.1 特征提取(必做)

从原始数据中提取与任务相关的特征.此过程往往需要很丰富的经验或者专家参与.有效特征可以让模型训练事半功倍.

3.3.2 特征预处理(必做)

将不同的单位的特征数据转成同一个范围内.解决量纲问题主要通过归一化和标准化.

归一化：
- 对原始数据进行变换到【mi,mx】(默认为[0,1])之间
- 原理(x - min) / (max - min) * (mx -mi) + mi
- 调用sklearn库的**sklearn.preprocessing.MinMaxScaler()**方法
- 受最大最小值影响，一般不常用
标准化：
- 将原始数据转换为均值为0标准差为1的标准正态分布的数据
- 原理(x - mean) / std
- 调用sklearn库的**sklearn.preprocessing.StandardScaler()**方法
- 不易受异常值影响，常用

3.3.3 特征降维(选做)

将原始数据的维度降低,例如x,y,z三维地图=>x,y二维平面图.
注意:会改变原始数据.

3.3.4 特征选择(选做)

从特征中选择出一些重要特征,类似与在集合中选择部分数据形成子集数据.

注意:不会改变原始数据.

3.3.5 特征组合(选做)

把多个特征合并成一个特征.

方式:加法或乘法.

3.4 模型训练

选择合适的算法对模型进行训练,根据不同的任务来选中不同的算法；有监督学习,无监督学习,半监督学习,强化学习等.

具体是通过KNN(K近邻算法)/线性回归算法/逻辑回归算法/决策树/朴素贝叶斯/聚类Kmeans算法等训练模型,内容比较多后面有机会分专题介绍.

3.5 模型预测

x_train # 训练集特征
y_train # 训练集标签
x_test  # 测试集特征
y_test  # 测试集标签

通过分析测试结果数据比例预测模型.
例如knn算法中:预测测试集标签 = knn_model.predict(x_test)

3.6 模型评估

评估效果好上线服务,评估效果不好则重复上述步骤.

分类算法训练的模型评估时参考 准确率.
回归类算法训练的模型评估时参考 MAE, MSE.
聚类算法训练的模型评估时参考 CH, SC.
例如:
方式1:estimator.score(x_test, y_test)    # 直接评估
方式2:accuracy_score(y_test, y_predict)  # 真实值与预测值对比
  

拟合:用来表示模型对样本点的拟合情况.
三种情况:  
    正好拟合:模型对样本点的拟合最好.
    过拟合:模型在训练集上表现很好, 在测试集表现很差.
    # 产生原因:模型太过于复杂, 数据不纯, 训练数据太少,K值过小比如是1.
    欠拟合:模型在训练集上表现很差, 在测试集表现也很差.
    # 模型过于简单或K值过大.