1. 引言
顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes与 CART。 以前看过关于这些数据挖掘算法,但对背后数学原理未做过多探究,因而借此整理以更深入地理解这些算法。
本文讨论的kNN算法是监督学习中分类方法的一种。所谓监督学习与非监督学习,是指训练数据是否有标注类别,若有则为监督学习,若否则为非监督学习。监督学习是根据输入数据(训练数据)学习一个模型,能对后来的输入做预测。在监督学习中,输入变量与输出变量可以是连续的,也可以是离散的。若输入变量与输出变量均为连续变量,则称为回归;输出变量为有限个离散变量,则称为分类;输入变量与输出变量均为变量序列,则称为标注[2]。
2. kNN算法
kNN算法的核心思想非常简单:在训练集中选取离输入的数据点最近的k个邻居,根据这个k个邻居中出现次数最多的类别(最大表决规则),作为该数据点的类别。
算法描述
训练集
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c3838f8a515c30575ebccf6da0775b90.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3c017187e73ba76794a360a8d0e7fdcf.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5afff27d9a807ba051985c56928d4f50.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/83b735baca293efb604041e83fafa479.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/57df00824fa8929374afebd739d9e0fa.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8967c79c6d6149b39a448d3dc528366a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5882afcf29685d3fb4cc03444b0fa261.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/742a3933753ca29822d81299f72cc844.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3a13c9aa1df53226801f4440689d22b4.png)
,则预测类别
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bdb34b9f7e952c2ff426b8a865d932a2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/760c8c5d82982babbf450a8f943b127f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8e719c16b8806be7e85a74c87dfeac76.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ca5819d9b75fb063080a55d62772bd52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bdb34b9f7e952c2ff426b8a865d932a2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6a5d7587c2bba2ff64838bfdf0b67e37.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2f027a0ab6ea766f2788ab24b907838b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5e29d3b611453c7e0dcf304b734b7a0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8816b260299ccd3b333a1e84259a57ff.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3e486976a29229dc6b73b8c1146d6384.png)
![](https://i-blog.csdnimg.cn/blog_migrate/257017bfa980ccba369d0f76ecdb90a7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/51a0f5c0a193b72b72e17c00f510dc5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/544508939ba782d1cc59ec2498bf3f15.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9b316b45faf090ca0a633dbc25daf9da.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b286d3a476809cb9642b1aecf297f14.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5946ac4ddf024c90425c78bbce6ceae4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/14dfee35b05e4e5a4f35539d54abc9a9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/57df00824fa8929374afebd739d9e0fa.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c882324baf77bcd5fa0e64a50593c785.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d5f60136f8f36763c470eb72b9af67fd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/14dfee35b05e4e5a4f35539d54abc9a9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/57df00824fa8929374afebd739d9e0fa.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4705aa4ed4b67dc207476fabd1c4cc78.png)
![](https://i-blog.csdnimg.cn/blog_migrate/742a3933753ca29822d81299f72cc844.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
其中,涵盖
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3a13c9aa1df53226801f4440689d22b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b286d3a476809cb9642b1aecf297f14.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9526014231cb300f9a18b572ec0a0cf5.png)
。
分类决策规则
kNN学习模型:输入
![](https://i-blog.csdnimg.cn/blog_migrate/b61b9c16ee9b9e8a7928d4b4b2ded45b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/329d43eb1e413fba21045bd9c755127f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a64514c9553b7a3820b79f568d22ca5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3a13c9aa1df53226801f4440689d22b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b286d3a476809cb9642b1aecf297f14.png)
![](https://i-blog.csdnimg.cn/blog_migrate/329d43eb1e413fba21045bd9c755127f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a64514c9553b7a3820b79f568d22ca5c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b286d3a476809cb9642b1aecf297f14.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
可知k邻域的样本点对学习模型的贡献度是均等的,则kNN学习模型误分类率为
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e80f7f32755e1b7cfcafd7aa01b0d934.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8816b260299ccd3b333a1e84259a57ff.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3e486976a29229dc6b73b8c1146d6384.png)
![](https://i-blog.csdnimg.cn/blog_migrate/257017bfa980ccba369d0f76ecdb90a7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/51a0f5c0a193b72b72e17c00f510dc5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/544508939ba782d1cc59ec2498bf3f15.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9b316b45faf090ca0a633dbc25daf9da.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ff1e8dad16b77d9493935c03eca272ce.png)
![](https://i-blog.csdnimg.cn/blog_migrate/329d43eb1e413fba21045bd9c755127f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3a13c9aa1df53226801f4440689d22b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e80f7f32755e1b7cfcafd7aa01b0d934.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3e486976a29229dc6b73b8c1146d6384.png)
![](https://i-blog.csdnimg.cn/blog_migrate/257017bfa980ccba369d0f76ecdb90a7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/51a0f5c0a193b72b72e17c00f510dc5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/544508939ba782d1cc59ec2498bf3f15.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9b316b45faf090ca0a633dbc25daf9da.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ff1e8dad16b77d9493935c03eca272ce.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b286d3a476809cb9642b1aecf297f14.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3b6f9759a7abbac935c652e71dc068f2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e80f7f32755e1b7cfcafd7aa01b0d934.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3e486976a29229dc6b73b8c1146d6384.png)
![](https://i-blog.csdnimg.cn/blog_migrate/257017bfa980ccba369d0f76ecdb90a7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/51a0f5c0a193b72b72e17c00f510dc5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/544508939ba782d1cc59ec2498bf3f15.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9b316b45faf090ca0a633dbc25daf9da.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b286d3a476809cb9642b1aecf297f14.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/14dfee35b05e4e5a4f35539d54abc9a9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
若要最小化误分类率,则应
![](https://i-blog.csdnimg.cn/blog_migrate/ca5819d9b75fb063080a55d62772bd52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bdb34b9f7e952c2ff426b8a865d932a2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6a5d7587c2bba2ff64838bfdf0b67e37.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2f027a0ab6ea766f2788ab24b907838b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5e29d3b611453c7e0dcf304b734b7a0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8816b260299ccd3b333a1e84259a57ff.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3e486976a29229dc6b73b8c1146d6384.png)
![](https://i-blog.csdnimg.cn/blog_migrate/257017bfa980ccba369d0f76ecdb90a7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/51a0f5c0a193b72b72e17c00f510dc5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/544508939ba782d1cc59ec2498bf3f15.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9b316b45faf090ca0a633dbc25daf9da.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b286d3a476809cb9642b1aecf297f14.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
所以,最大表决规则等价于经验风险最小化。
存在问题
k值得选取对kNN学习模型有着很大的影响。若k值过小,预测结果会对噪音样本点显得异常敏感。特别地,当k等于1时,kNN退化成最近邻算法,没有了显式的学习过程。若k值过大,会有较大的邻域训练样本进行预测,可以减小噪音样本点的减少;但是距离较远的训练样本点对预测结果会有贡献,以至于造成预测结果错误。下图给出k值的选取对于预测结果的影响:
前面提到过,k邻域的样本点对预测结果的贡献度是相等的;但距离更近的样本点应有更大的相似度,其贡献度应比距离更远的样本点大。可以加上权值
![](https://i-blog.csdnimg.cn/blog_migrate/ca5819d9b75fb063080a55d62772bd52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bdb34b9f7e952c2ff426b8a865d932a2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6a5d7587c2bba2ff64838bfdf0b67e37.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2f027a0ab6ea766f2788ab24b907838b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5e29d3b611453c7e0dcf304b734b7a0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8816b260299ccd3b333a1e84259a57ff.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3e486976a29229dc6b73b8c1146d6384.png)
![](https://i-blog.csdnimg.cn/blog_migrate/257017bfa980ccba369d0f76ecdb90a7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/51a0f5c0a193b72b72e17c00f510dc5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/544508939ba782d1cc59ec2498bf3f15.png)
![](https://i-blog.csdnimg.cn/blog_migrate/896664c20acfe5ebc7ae2286400f5d5a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9b316b45faf090ca0a633dbc25daf9da.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1bf1b29f2cbe7158ef1bbfcdf0d6bb10.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0c7061d39f38591e65a354730c17889f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2b286d3a476809cb9642b1aecf297f14.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
3. 参考资料
[1] Michael Steinbach and Pang-Ning Tan, The Top Ten Algorithms in Data Mining.
[2] 李航,《统计学习方法》.