机器学习:
1.概念:Simple and efficient tools for predictive data analysis
【预测数据分析结果】
用机器代替人做决策
数据集 =》 训练 =》 模型
2.Built on NumPy, SciPy, and matplotlib、pandas
2.机器学习里面的常用术语 :
(1)数据集准备
色泽= 绿色 、根=弯曲 、 敲声 = 浑浊 =》 熟的
色泽= 黑色 、根=弯曲 、 敲声 = 沉闷 =》 生的
色泽= 红色 、根=弯曲 、 敲声 = 清脆 =》 生的
数据集:这组数据 的集合
样本:每一条数据
维度:西瓜的判断条件
标签(label):结果的判断就是标签
(2)模型怎么来的?
数据集 =》 训练 =》基于某个算法 =》 模型 【数学公式】
机器学习的模型作用:
输入三个维度 =》 判断出结果
机器学习: 数据科学家 【基于数据 =》 分析 一些问题】
1.数学 =》 算法 knn、kmeans 、线性回归、逻辑
2.会写代码
3.机器学习的种类:
(1)有监督学习: 结果是 label的
1.分类:
通过模型 判断结果 生的还是熟的
2.回归:
通过模型 判断结果 (熟了 0.9)
(2)无监督学习:结果是 没有label的
1.聚类: =》 sql group by
(3)半监督学习:
使用标记数据+为标记数据 进行训练
(4)强化学习:
阿法狗
4.如何判断模型好不好?
(1)正确率、错误率
正确率:(tp+tn) / (tp+tn+fp+fn)
错误率率:(fp+fn) / (tp+tn+fp+fn)
(2)精确率、召回率
P 精确率:(tp) /(tp+fp)
R 召回率:(tp) /(tp+fn)
(3)真正率、假正率:
tpr=
fpr=
roc 和auc
5.Numpy pandas matplotlib
统计分析、假设、线下回归、逻辑回归、knn、朴素贝叶斯、aqi、时间序列、决策树、kmeans、分类模型评估