Python每日一记36>>>机器学习实战遇到的问题

最新推荐文章于 2024-06-14 07:13:39 发布

教练我想学编程

最新推荐文章于 2024-06-14 07:13:39 发布

阅读量213

点赞数

本文链接：https://blog.csdn.net/weixin_44663675/article/details/89287994

版权

首次进行机器学习实战，但是问题多多。我想做的事是，考察年龄，区域，性别与消费部类的关系，采用机器学习随即森林算法进行训练并进行预测。先上代码
在这里插入图片描述
大家不用过分在意代码，我想要分享的是我在这个过程中遇到的问题。
1、ImportError: DLL load failed: 找不到指定的模块。
在公司的电脑上，导入机器学习库不会出现问题，但是在自己的电脑则出现了，况且我明明已经pip install sklearn
但是 import出现了问题，查阅资料后，发现很多都出现了问题，解决方法是先删除，再用其他方法下载。但是我是一个怕麻烦的人，就是想用pip,意识到是版本不匹配的问题，我将python3.7卸载，重新下载3.6的版本，然后在安装所需要的库，结果成功了，推测是库的版本不适用python版本。
我不知道网上其他方法是否有用，比如下面的链接
http://www.cnblogs.com/whu-2017/p/8954542.html

请注意：
第二步：去到Python安装Scripts目录下，再使用pip install xxx.whl安装，先装Numpy\Scipy包，再安装Scikit-Learn。
我不明白这要怎么操作，但是意识到有其他方法安装库(除了pip)
因此大家可以参考下面的链接，学习其他方法：
https://blog.csdn.net/github_35160620/article/details/52203682

2、缺失值
一定要注意，机器学习的数据有缺失值是会出现错误的，因此处理缺失值就很重要。
查看缺失值数量：df.isnull().sum()
删除缺失值：df.dropna(subset=[‘年龄’])，注意一定要[’年龄‘]，不能subset=‘年龄’

3、类别数据
值得注意的是，我们的自变量不能有类别变量，否则会报错，但是因变量可以是类别变量，不会报错。
我们可以pd.get_dummies(x),将类别变量转换为数值变量。
既然我们的自变量变成了数值型变量，那我们进行预测的原数据也得是同类型的变量，因此建议在最开始，将训练数据和预测数据都进行哑变量处理，然后分离出来，一个进行训练，一个进行预测。如果我们预测是数据单独进行哑变量处理，很有可能不符合训练集的数据要求。
比如我们训练的数据进行哑变量处理，会有很多项目
在这里插入图片描述
但如果我们对预测的数据进行哑变量处理，只能变下面的样子，这显然不符合模型的数据输入要求。

4、机器学习的数据因变量和自变量
要求自变量是dataframe,即二维数据框，因变量是一维数据，列表即可。正常情况下，我们使用的是x.values,不含有名称的,即不是x

教练我想学编程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python每日一记36>>>机器学习实战遇到的问题

首次进行机器学习实战，但是问题多多。我想做的事是，考察年龄，区域，性别与消费部类的关系，采用机器学习随即森林算法进行训练并进行预测。先上代码大家不用过分在意代码，我想要分享的是我在这个过程中遇到的问题。1、ImportError: DLL load failed: 找不到指定的模块。在公司的电脑上，导入机器学习库不会出现问题，但是在自己的电脑则出现了，况且我明明已经pip install ...
复制链接

扫一扫