定义概念:机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
数据集 =》 训练 =》 模型
Built on NumPy, SciPy, and matplotlib、pandas
机器学习里面的常用术语 :(例)
1.数据集准备
色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的
色泽= 黑色 、根=弯曲 、 敲声 = 沉闷 =》 生的
色泽= 红色 、根=弯曲 、 敲声 = 清脆 =》 生的
数据集:这组数据的集合
样本:每一条数据
维度:西瓜的判断条件
标签(label):结果的判断就是标签
2.模型怎么来的?
数据集 =》 训练 =》基于某个算法 =》 模型 【数学公式】
机器学习的模型作用:
输入三个维度 =》 判断出结果
机器学习分类
1. 监督学习(Supervised Learning)表示机器学习的数据是带标记的,这些标记可以包括数据类别、数据属性及特征点位置等。这些标记作为预期效果,不断修正机器的预测结果。
1.分类:
通过模型 判断结果 生的还是熟的
2.回归:
通过模型 判断结果 (熟了 0.9)
2.无监督学习(Unsupervised Learning)表示机器学习的数据是没有标记的。机器从无标记的数据中探索并推断出潜在的联系。
1.聚类: =》 sql group by
3.半监督学习:
使用标记数据+为标记数据 进行训练
4.强化学习:
阿法狗
如何判断模型好不好?
1.正确率、错误率
正确率:(tp+tn) / (tp+tn+fp+fn)
错误率率:(fp+fn) / (tp+tn+fp+fn)
2.精确率、召回率
P 精确率:(tp) /(tp+fp)
R 召回率:(tp) /(tp+fn)
3.真正率、假正率:
tpr=
fpr=
roc 和auc
Numpy
NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库
创建一维数组:
1.数据类型转化
2.内置函数
创建二维数组:
1.数据类型转化
2.内置函数
数组属性:
1.修改 sharp
2.转换数据类型:
1.nparr =》 python
2.nparr元素 int =》 float
数组切片:
切片:取值
一维数组:
二维数组:
根据条件进行取值
ifnull(condition,xx,xxx)
5.数组的轴 (axis)
1.numpy 轴 可以理解为方向
2.数组 0 1 2 表示
eg :
一维数组:只有一个 0 轴
二维数组:0轴 1轴
三维数组:0轴 1轴 2轴
3.轴 用于计算:
按照 0、1、2轴进行计算
np.xxx() api
np.sum
np.mean
6.数组的计算
跟矩阵一样:
1.数组与数的计算
2.形状相同的数组计算
3.不同形状的数组 计算?
4.行数 或 列数相同的 一维数组 与 多维数组 进行计算
7.数组中的空值
数组的操作:
8.random
练习:创建九九乘法表(numpy ,矩阵,只求输出结果)
import numpy as np if __name__ == '__main__': n=10 for x in range(1,n): h = np.arange(1, x+1) #v=h*x print( h * x, end=" ") print(" ")