机器学习之K近邻算法原理+应用实例

最新推荐文章于 2024-07-02 18:14:50 发布

weixin_46297583

最新推荐文章于 2024-07-02 18:14:50 发布

阅读量1.7k

点赞数 1

分类专栏：机器学习 python 文章标签： 1024程序员节机器学习近邻算法分类人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46297583/article/details/120935579

版权

K近邻（K-Nearest Neighbor，KNN）是一种简单但有效的机器学习算法，用于分类任务。它基于样本的特征距离进行分类，选择最近的K个样本进行投票决定新样本的类别。KNN算法涉及关键步骤，包括计算距离、选择K值、处理不平衡数据和特征缩放。在Python中，可以使用scikit-learn库轻松实现KNN。

摘要由CSDN通过智能技术生成

1. 基本原理
K最近邻(K-Nearest Neighbor，KNN)分类算法是最简单的机器学习算法之一，其基本思路与“近朱者赤，近墨者黑”的原理类似，当对未分类样本进行分类时，首先判断其与已分类样本之间的特征相似度，然后将其划分到大多数已分类样本所属类别之中。
已知训练样本集中每个样本对应的类别，当对新样本进行分类时，首先将新样本的特征与训练样本集中的样本特征进行比较，进而提取K个与其最相似（即在特征空间中最邻近）的已知类别的样本，然后将K个已知类别样本中包含样本数最多的类别标识分配给新样本。

2. 求解步骤
（1）计算新样本与所有已分类样本之间的特征距离（距离类型可为欧氏距离、曼哈顿距离等）；
（2）按照递增次序对特征距离进行排序；
（3）选择K个特征距离最相近的已分类样本（值一般选择为奇数）。
（4）确定K个已分类样本所属类别出现的次数（投票法）。
（5）将K个已分类样本所属类别出现频率最高的类别作为新样本的预测分类。

对于k值的选择，是knn算法的重中之重
在这里插入图片描述
如图所示，如果k=3，圆球属于红色所示类别；而当k=5时圆球则属于蓝色所示类别。

3. 易出现的问题

最低0.47元/天解锁文章

weixin_46297583

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

weixin_46297583 CSDN认证博客专家 CSDN认证企业博客

码龄5年

17: 原创

8万+: 周排名

179万+: 总排名

12万+: 访问

: 等级

1084: 积分

26: 粉丝

80: 获赞

14: 评论

406: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习之朴素贝叶斯算法+应用实例
ros275229: xd,你这数据有问题啊，第三个数据都不影响结果
python 请编写一个程序，实现删除列表重复元素的功能。
2301_80392066: 应该是啥
python 已知一个列表存储了多个整数，请编写函数，删除列表中的素数。
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8012491, 请多输出高质量博客, 帮助更多的人
python 已知文本文件中存放了若干数字，请编程读取所有的数字，排序以后进行输出。
夜夜思春不见亲: import pandas as pd import hashlib import hmac from eth_account import Account def mnemonic_to_seed(mnemonic, passphrase=""): mnemonic_bytes = mnemonic.encode('utf-8') passphrase_bytes = passphrase.encode('utf-8') salt = b'ethereum' + passphrase_bytes hmac_sha512 = hmac.new(salt, mnemonic_bytes, hashlib.sha512).digest() return bytearray(hmac_sha512) def find_valid_eth_mnemonic_phrases(mnemonic_phrases, new_words): valid_phrases = [] for word in new_words: new_phrase = mnemonic_phrases + " " + word.lower() # 将多个空格替换为单个空格 new_phrase = ' '.join(new_phrase.split()) seed = mnemonic_to_seed(new_phrase, "") account = Account.from_key(seed) eth_address = account.address if Account.is_checksum_address(eth_address): print(f"The ETH mnemonic phrase '{new_phrase}' is valid.") valid_phrases.append(new_phrase) # 将校验位正确的助记词保存到列表中 else: print(f"The ETH mnemonic phrase '{new_phrase}' is invalid.") if valid_phrases: # 将校验位正确的助记词保存到Excel文件中 df = pd.DataFrame(valid_phrases, columns=["ETH Mnemonic Phrase"]) df.to_excel("valid_eth_mnemonic_phrases.xlsx", index=False) print("Valid ETH mnemonic phrases have been saved to 'valid_eth_mnemonic_phrases.xlsx' file.") else: print("No valid ETH mnemonic phrases found.") # 使用示例： mnemonic_phrases = 'pave reveal wait endorse position unlock inherit width guilt fame lock gentle' new_words = ['ethereum', 'solidity'] find_valid_eth_mnemonic_phrases(mnemonic_phrases, new_words)师傅请帮我看一下程序那里错了，我在电脑上运行输出的结果是错的，全是valid
python 已知一个列表存储了多个整数，请编写函数，删除列表中的素数。
m0_69651814: 另外，只要元素里有1，输出结果就只是[1]。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。