Python每日一记36>>>机器学习实战遇到的问题

首次进行机器学习实战,但是问题多多。我想做的事是,考察年龄,区域,性别与消费部类的关系,采用机器学习随即森林算法进行训练并进行预测。先上代码
在这里插入图片描述
大家不用过分在意代码,我想要分享的是我在这个过程中遇到的问题。
1、ImportError: DLL load failed: 找不到指定的模块。
在公司的电脑上,导入机器学习库不会出现问题,但是在自己的电脑则出现了,况且我明明已经pip install sklearn
但是 import出现了问题,查阅资料后,发现很多都出现了问题,解决方法是先删除,再用其他方法下载。但是我是一个怕麻烦的人,就是想用pip,意识到是版本不匹配的问题,我将python3.7卸载,重新下载3.6的版本,然后在安装所需要的库,结果成功了,推测是库的版本不适用python版本。
我不知道网上其他方法是否有用,比如下面的链接
http://www.cnblogs.com/whu-2017/p/8954542.html

请注意:
第二步:去到Python安装Scripts目录下,再使用pip install xxx.whl安装,先装Numpy\Scipy包,再安装Scikit-Learn。
我不明白这要怎么操作,但是意识到有其他方法安装库(除了pip)
因此大家可以参考下面的链接,学习其他方法:
https://blog.csdn.net/github_35160620/article/details/52203682

2、缺失值
一定要注意,机器学习的数据有缺失值是会出现错误的,因此处理缺失值就很重要。
查看缺失值数量:df.isnull().sum()
删除缺失值:df.dropna(subset=[‘年龄’]),注意一定要[’年龄‘],不能subset=‘年龄’

3、类别数据
值得注意的是,我们的自变量不能有类别变量,否则会报错,但是因变量可以是类别变量,不会报错。
我们可以pd.get_dummies(x),将类别变量转换为数值变量。
既然我们的自变量变成了数值型变量,那我们进行预测的原数据也得是同类型的变量,因此建议在最开始,将训练数据和预测数据都进行哑变量处理,然后分离出来,一个进行训练,一个进行预测。如果我们预测是数据单独进行哑变量处理,很有可能不符合训练集的数据要求。
比如我们训练的数据进行哑变量处理,会有很多项目
在这里插入图片描述
但如果我们对预测的数据进行哑变量处理,只能变下面的样子,这显然不符合模型的数据输入要求。
在这里插入图片描述
4、机器学习的数据因变量和自变量
要求自变量是dataframe,即二维数据框,因变量是一维数据,列表即可。正常情况下,我们使用的是x.values,不含有名称的,即不是x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值