数据集:
首先,初始化代码和数据
我们想要数组形式,这样分:
这里就不贴代码了,参考博客和《机器学习实战》书决策树的构造即可。
🚧记录一些出现的错误:
-
加载csv数据的时候代码从网上下载的csv文件一直报错
Error tokenizing data. C error: Expected 2 fields in line 134, saw 3
或者就是'utf-8' codec can't decode bytes in position 16: invalid continuation byte
,是编码出了问题,百度了各种方法修改编码无果,最后我的解决办法是:直接复制csv中的文件粘贴到新建的csv中并保存即可。关于数据初始化的格式请参考我的博文 -
list indices must be integers or slices, not tuple
参考博文和知乎回答学习二list的切片
🦄学习心得:
机器学习代码自己即便是懂了原理也敲不出来,十分困惑,甚至在刚开始加载csv文件和切片的时候频频出错,应该刻意去练习一下numpy和pandas的数据操作,书到用时方恨少,又想把上学期的课拿出来再学一遍。