机器学习及其Python实践学习笔记
文章平均质量分 64
人生苦短,我用Python。
世澈
继续卷。
展开
-
机器学习中对数据集进行拆分及模型训练
对数据集的处理经过预处理后得到:特征集X目标集Y将特征集拆分;一般来说机器学习的数据集都会被划分成三个个子集:训练集,验证集和测试集;我们拿到的数据集通常都是由人工或者半自动化的方式收集来的,每个输入数据都有对应的输出,机器学习要做的是学习这些已经收集好的数据中所包含的信息,并且在新的输入数据出现时成功预测到输出;训练集是用来训练模型的,给模型输入和对应的输出,让模型学习它们之间的关系;验证集是用来估计模型的训练水平。根据验证集的表现来选择最好的模型;测试集是训练好的模型在模拟的“原创 2022-05-05 15:05:21 · 3659 阅读 · 0 评论 -
机器学习中数据集的加载和预处理
机器学习使用样本数据集训练模型:如果数据集出现问题,那么训练结果也会出现问题(garbage in, garbage out.);通常需要对数据集进行检查,对有问题的数据集进行预处理;加载并浏览数据集举例:```import numpy as npimport matplotlib.pyplot as pltimport pandas as pdhouse = pd.read_csv('data\\boston.csv')print(house.shape)```数据项说明原创 2022-05-04 11:24:38 · 1347 阅读 · 0 评论 -
机器学习使用Python进行编程时的编程环境和数据集、并以波士顿房价数据集为例进行简单操作
编程环境和数据集常用与机器学习相关类库由第三方机构SciPy.org开发的开源类库Numpy数值计算扩展最主要的类:ndarray(多维数组类)Pandas数据分析最主要的类:Series(一维序列类)、DataFrame(二维表格类)Matplotlib数据可视化最主要的类:pyplot(简单常用的绘图功能)scikit-learn面向机器学习(尤其是统计学习)的类库;支持绝大部分回归任务、分类任务、聚类任务;目前不支持深度学习和并行计算skle原创 2022-04-24 16:36:07 · 1071 阅读 · 2 评论 -
人工智能的三个发展阶段,机器学习问题的主要来源、分类与教学层面
人工智能发展阶段基于知识:早期人工智能,将人的知识以规则或位词的形式转移给计算机,然后计算机基于这些规则进行演绎推理;专家系统、机器定理证明;属于计算机科学的范畴;基于特征:不依赖上层知识,基于更底层的特征数据;基于底层特征数据进行预测或分类需要先建立并训练模型,相当于计算机从训练数据中获得知识,这就是机器学习;至此,机器学习开始成为人工智能研究的主要领域;回归分析、贝叶斯决策;基于数据:随着信息化和互联网的普及,各种数据被存储,基于这些原始数据建立数据模型;基于大数据原创 2022-04-24 11:35:23 · 1126 阅读 · 0 评论 -
机器学习中对传染病的数学建模和多元模型的简述
模型假设的方法数据可视化建模;数学建模;数据可视化建模在数据分析中被称作:探索性数据分析;高尔顿的身高回归定律;数学建模最直接最科学的建模方法;对传染病传播的数学建模参数地区总人口为N(已知常数)易感人群(Susceptible),记作:S或者S(t);感染人群(Infectious),记作:I或者I(t);康复人群(Recovered),记作:R或者R(t);则有以下数据关系:S = N - II(t) = di/dt = β(I/N)S - γI原创 2022-04-24 09:41:39 · 361 阅读 · 0 评论 -
机器学习中的随机模型、回归分析方法、 随机变量与确定性变量等
数学模型的分类理想模型;上一节中对房屋价格的计算;即“f(x) = ωx + b”随机模型:带观测误差的模型:随机模型包含多个随机变量,不同的随机变量表示不同的总体,或者表示同一总体的不同特征\属性;y ≈ f(x) = ωx + b,或y ≈ f(x) + e;e:随机观测误差D = {(x_1, y_1), (x_2, y_2)…(x_m, y_m)}D:样本、\样本集;m:样本容量、\样本大小\样本点个数;随机模型的算法构建过程采集多个样本数据;绘原创 2022-04-22 16:54:21 · 2295 阅读 · 0 评论 -
机器学习的引入、测算房价数学模型的Python实现
人类的学习:发现知识、运用知识;机器学习:(Machine Learning,缩写ML)建立模型、应用模型;如果一个系统能够通过执行某个过程改进其性能,这就是学习;(H.A.Simon)给定任务T和损失函数L(即性能度量P,或称作学习策略R),借助样本数据集D(历史数据)和学习算法A,训练处最优(损失最小)模型(用函数f表示),然后使用该模型对新样本进行预测;常用的应用场景数据挖掘;利用历史数据进行决策;依据商品之间的关联性进行商品摆放与分类;优惠券的定向发放;信用卡风险.原创 2022-04-20 15:17:17 · 901 阅读 · 0 评论