样本我就用的《machine learning in action》中提供的数据样例,据说是婚恋网站上各个候选人的特征,以及当前人对这些人的喜欢程度。一共1k条数据,前900条作为训练样本,后100条作为测试样本。
数据格式如下:
46893 3.562976 0.445386 didntLike
8178 3.230482 1.331698 smallDoses
55783 3.612548 1.551911 didntLike
1148 0.000000 0.332365 smallDoses
10062 3.931299 0.487577 smallDoses
74124 14.752342 1.155160 didntLike
66603 10.261887 1.628085 didntLike
11893 2.787266 1.570402 smallDoses
50908 15.112319 1.324132 largeDoses
39891 5.184553 0.223382 largeDoses
65915 3.868359 0.128078 didntLike
65678 3.507965 0.028904 didntLike
最后的测试结果,100个测试样本有11个样本分类错误,错误率最终是11%。
补充一下,代码+数据保存在github上面:https://github.com/henryxiao1997/machine-learning-in-python/tree/master/KNN
如有转载,请注明出处:http://blog.csdn.net/xceman1997/article/details/44994327

本文详细介绍了使用《machinelearninginaction》书籍中的数据样例进行机器学习实践的过程,包括数据预处理、模型选择与评估等关键步骤。通过实例展示了如何在婚恋网站上运用机器学习算法预测用户对潜在匹配对象的喜好程度,并分析了模型的准确性和优化策略。

1121

被折叠的 条评论
为什么被折叠?



