目录
1.KNN的工作原理
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
简单理解:当预测一个新的值x的时候,根据它距离最近的k个点是什么类别来判断x属于那个类别。
2.简单示例
当k=4时,knn算法找到离他最近的四个点,红三角多,因此判断新来的为红三角 ,因此k值的选取至关重要。

3.K值的选取
通过交叉验证(将样本数据按照一定比例,拆分出训练用的数据和验证用的数据,)从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。
- 选择较小的k值,就相当于用较小的领域中的训练实例进行预测,训练误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是泛化误差会增大。

KNN(K最近邻)算法是一种基于实例的学习,用于分类和回归任务。其工作原理是通过计算新样本与训练集中所有样本的距离,找出最近的K个邻居,基于这些邻居的类别进行预测。K值的选择对模型性能有很大影响,通常通过交叉验证确定。距离度量常用的是欧氏距离。KNN算法特点是简单、非参数,但内存需求大,预测速度慢。适用于大数据分类场景。
最低0.47元/天 解锁文章
1644

被折叠的 条评论
为什么被折叠?



