2021/2/1
数据类型
**离散型数据:**记录不同个体得到的数据,相当于一个一个数出来的数据。只能是整数,不能再细分了
**连续型数据:**一段范围内任取一个数,取值是可以连续性的。一般就是有小数的,可以不断的去细分。
数据类型的不同,机器学习方法也不同
机器学习算法分类
- 监督学习:有特征值和目标值。可以预测出来可能的目标值。因为有对比
分类:确定是哪一类的数据,最基础的就是二分类,即判断是和否。所以只用离散型: k-近邻 ,-贝叶斯, - 决策树, - 随机森林, - 逻辑回归, - 神经网络
回归:预测下一次 在范围内会出现什么数据。所以用连续型:线性回归,岭回归 - 非监督学习:只有特征值,没有目标值。给1000个样本尽量分析出来更多的内容。
聚类:k-means
机器开发的流程
- 拥有数据
- 从原始数据明确问题做什么
- 数据的基本处理:pd去处理数据(缺失值,合并表)
- 特征工程(继续对特征进行处理 ,非常重要)
- 找到合适的算法进行预测。建立模型
- 模型的评估,判断效果如何。结果不好就返回5,甚至返回4
- 可以就上线使用,提供一个API