智能技术_6:K个最近邻居(医疗旅游)

智能技术_1:安装TensorFlow和Keras
智能技术_2:大数据分析与机器学习概论
智能技术_3:关联规则
智能技术_4:贝叶斯分类和贝叶斯网络
智能技术_5:决策树
智能技术_6:K个最近邻居(医疗旅游)


智能技术(串讲)

https://www.bilibili.com/video/BV11X4y1g7Hx

# 写于2021.04.10
# 本文为学习笔记,用的ppt是陈志华教授版,侵删
# 笔记只为交流,入门小白,有错望留言纠正
# 总结不易 望赞鼓励

1. K个最近邻居

1.1 简单理解

还是分类问题,k表示最近的几个列子,k一般取单数(3,5…)是为了尽量必面 两类相同。
在这里插入图片描述
那么如何找找到最佳k值呢?参考:

交叉验证:
在这里插入图片描述

1.2 求解步骤

信息检索(Information Retrieval, IR)(数据前处理过程)

  • 断词切字(Stemming)
  • 词频(Term Frequency, TF)

假设第i篇文章第j个字词共出现nij次,第i篇文章共有Ni个字词,
第i篇文章第j个字词词频tij为:
在这里插入图片描述

  • 逆向文件频率(Inverse Document Frequency, IDF)

假设第j个字词出现在mj篇文章,文章总共有M篇,
第j个字词逆向文件频率dj为(10为底的对数):

在这里插入图片描述

  • TF-IDF

就是②③相乘
第i篇文章第j个字词TF-IDF值vij为:
在这里插入图片描述

k个最近邻居(k-Nearest Neighbors, kNN)(二选一

  • 相似度算法

计算X与Y的「相似度s(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
在这里插入图片描述

  • 距离算法

计算X与Y的「距离d(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
在这里插入图片描述

kNN算法通过相似度或者距离算法,选择一个样本范围k,然后看哪类多就属于哪类

2. 过程

2.1 断词切字(Stemming)

2.2 词频(Term Frequency, TF)

假设第i篇文章第j个字词共出现nij次,第i篇文章共有Ni个字词,
第i篇文章第j个字词词频tij为:
在这里插入图片描述

在这里插入图片描述
第一句话13个词,那么这句machine就是1/13;

第三句话13个词,那么这句computer就是2/13;
在这里插入图片描述

2.3 逆向文件频率(Inverse Document Frequency, IDF)

假设第j个字词出现在mj篇文章,文章总共有M篇,
第j个字词逆向文件频率dj为(10为底的对数):

在这里插入图片描述

这里只看有没有出现,不谈出现次数;M=3(三篇文章)
在这里插入图片描述
利用公式:log(M/mj)
在这里插入图片描述

2.4 TF-IDF

就是②③相乘
第i篇文章第j个字词TF-IDF值vij为:
在这里插入图片描述

在这里插入图片描述

2.5 k个最近邻居(k-Nearest Neighbors, kNN)

2.5.1 相似度

计算X与Y的「相似度s(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
在这里插入图片描述

在这里插入图片描述

2.5.2 距离算法

计算X与Y的「距离d(X, Y)」
X = {x1, x2,…, xn},Y = {y1, y2,…, yn}
在这里插入图片描述

在这里插入图片描述

2.5.3 通过kNN解决分类问题

在这里插入图片描述

通过绝对距离测量,那么d1的sum = |6-3| +|5 - 3| + 0-0 =5
在这里插入图片描述

3 本体论

本体论(Ontology)是「研究到底哪些名词代表真实存在实体,哪些名词只是代表一种概念,近年来,人工智能及信息技术相关领域的学者也开始将本体论的观念用在知识表达上,即 藉由本体论中的基本元素:概念及概念间的关连,作为描述真实世界的知识模型。
也就是本来一个专有词汇 它给拆开了。本体论那就跟归类


例如:皮肤有类症在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4 实例-医疗旅游应用方法

4.1 断词切字和本体论

① 将两类泉水疗效内容找到
在这里插入图片描述

②计算每篇文章中提及的文字出现次数并标记每篇文章所属类别
在这里插入图片描述
③ 断文切字
在这里插入图片描述
④ 将相同字词数合并 并计算次数总和
在这里插入图片描述
本体论结果

参考医疗本体论,将各个疾病名称抽象化为「概念层级」

在这里插入图片描述

4.2 词频

在这里插入图片描述
在这里插入图片描述

4.3 逆向文件频率

在这里插入图片描述
在这里插入图片描述

4.4 TF-IDF

在这里插入图片描述

4.5 kNN(欧几里得距离, k=3)

查询内容「轻度高血压、肠胃不舒服」,肠胃没有这项,那么忽略
在这里插入图片描述
计算结果(欧几里得距离, k=3):
在这里插入图片描述
*新的数据(和4.4数据不同)
查询之病症,推荐可以采用碳酸氢钠泉疗法。

查询内容「脚扭伤」
在这里插入图片描述
计算结果(欧几里得距离, k=3):
在这里插入图片描述
*新的数据
查询之病症,推荐可以采用硫化氢泉疗法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羊老羊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值