1 理论来源
机器学习理论是参照人类学习链条:DIKIW模型(数据-信息-知识-智能-智慧)
-数据: 原始的、未经处理的事实和数字。
-信息: 经过处理、整理和结构化的数据,具有意义和上下文。
-知识: 由信息构建而成的模式和规则。
-智能: 运用知识进行决策和解决问题的能力。
-智慧: 智能的高级形式,涉及深刻理解和伦理考虑。
目前火热的AGI,目标不仅限于DIKIW转化,还需要在广泛的领域内展现出通用智能的能力,能够自主学习、推理和决策,甚至在情感和社会互动中表现出智慧:AGI必须能够处理从原始数据到智能的所有转换过程,涵盖数据收集、信息提取、知识获取和应用;超越智能,智慧层次涉及道德判断、长期规划和人类社会的复杂互动,能够在伦理和道德框架内进行决策;AGI系统应该具有自我反省和自我改进的能力,这是使其不断进化和适应新情况的关键。
2 定义和概念
机器学习是一门利用算法和统计模型来使计算机系统通过数据进行学习的学科,其目标是让计算机在没有明确编程的情况下,自动改进其性能,其核心任务是从数据中学习模型,这些模型可以用于预测、分类、聚类等任务。机器学习的本质就是回归(连续性)和分类(离散性)的问题。
基础概念:
-数据集(Dataset):用于训练和评估模型的数据集合。通常分为训练集、验证集和测试集。
-特征(Features):用于描述数据的属性或变量。
-标签(Labels):监督学习中,用于指导模型学习的目标值。
-损失函数(Loss Function):衡量模型预测结果与实际结果之间误差的函数。
-优化算法(Optimization Algorithm):用于调整模型参数以最小化损失函数的算法,例如梯度下降。
3 算法分类
1)监督学习(Supervised Learning)
监督学习利用已标记的数据集训练模型,以对新数据进行预测或分类,这种方法通过提供输入数据及其对应的正确输出来训练模型,使其能够学会映射输入到输出的关系。应用实例:图像分类、语音识别、股票价格预测。
典型算法:
线性回归
逻辑回归
支持向量机(SVM)
决策树
随机森林
k近邻算法(k-Nearest Neighbors, k-NN)
神经网络
2)无监督学习(Unsupervised Learning)
无监督学习使用未标记的数据集进行训练,以发现数据的内在结构和模式,这种方法不需要预先标记的数据,模型会自行找出数据的分布和特征。应用实例:客户细分、图像压缩、异常检测。
典型算法:
聚类(Clustering),如k-means、层次聚类
主成分分析(Principal Component Analysis, PCA)
独立成分分析(Independent Component Analysis, ICA)
自组织映射(Self-Organizing Maps, SOM)
高斯混合模型(Gaussian Mixture Model, GMM)
3)半监督学习(Semi-Supervised Learning)
半监督学习利用少量标记数据和大量未标记数据进行训练,它结合了监督学习和无监督学习的优点,在标记数据有限的情况下提高模型的性能。应用实例:文本分类、图像标注、生物信息学。
典型算法:
半监督支持向量机
图形推理算法
自编码器
4)强化学习
强化学习通过与环境的互动,学习采取何种行动以最大化累计奖励,适用于需要连续决策和反馈的场景。应用实例:游戏AI、机器人控制、自动驾驶。
典型算法:
Q学习(Q-Learning)
深度Q网络(DQN)
策略梯度方法
近端策略优化
5)深度学习
深度学习是一种基于人工神经网络的机器学习方法,特别是包含多个层的深度神经网络,在处理大规模数据和复杂模式识别任务中表现优异。应用实例:图像识别、自然语言处理、自动翻译。
典型算法:
卷积神经网络(CNN)
循环神经网络(RNN)
长短期记忆网络(LSTM)
生成对抗网络(GAN)
变分自编码器(VAE)
Transformer,最初是为了解决序列到序列任务而提出,由编码器和解码器组成,通过自注意力机制和并行计算能力,在捕捉长距离依赖和处理大规模数据方面表现出色。
4 评估指标
评估指标是用于衡量模型性能的关键工具,帮助我们理解和比较模型的预测能力。
1)分类问题的评估指标
1.1)准确率(Accuracy):正确预测的比例,即所有正确预测的样本数除以总样本数。
{Accuracy} = {TP + TN}/{TP + TN + FP + FN},适用于类别均衡的数据集,但在类别不平衡的数据集上可能会产生误导。
1.2)精度(Precision):预测为正类样本中实际为正类的比例。
{Precision} = {TP}\{TP + FP},当关注减少假阳性时(如垃圾邮件过滤)。
1.3)召回率(Recall):实际为正类样本中被正确预测为正类的比例。
{Recall} = {TP}\{TP + FN},当关注减少假阴性时(如疾病检测)。
1.4)F1分数:精度和召回率的调和平均值。
{F1 Score} = 2 *{{Precision} *{Recall}/{Precision + Recall}} ,当需要平衡精度和召回率时,特别适用于不平衡数据集。
1.5)AUC-ROC(Area Under the Receiver Operating Characteristic Curve):ROC曲线下面积,衡量分类模型的整体表现,绘制了不同阈值下的召回率和假阳性率。AUC-ROC值越接近1,模型性能越好;0.5表示模型性能与随机猜测相当。
2)回归问题的评估指标
2.1)均方误差MSE:预测值与实际值之间的平均平方差,强调较大误差。
2.2)均方根误差:MSE的平方根,更直观地反映预测误差的实际大小。
2.3)平均绝对误差:预测值与实际值之间的平均绝对差。
2.4)R平方:解释了模型所能解释的目标变量的方差比例,衡量回归模型的拟合优度。
5 主要步骤
1)数据收集:获取足够的、有代表性的数据。
2)数据预处理:清洗、转换和规范化数据,处理缺失值、异常值等问题。
3)特征工程:选择、提取和创建有意义的特征。
4)模型选择:选择适合于具体任务和数据特点的模型。
5)模型训练:使用训练集训练模型,调整模型参数以最小化损失函数。
6)模型评估:使用验证集评估模型性能,选择最佳模型。
7)模型部署:将模型应用于实际场景,进行预测或决策。
8)模型监控与更新:在实际应用中监控模型性能,定期更新和改进模型。