毕业设计"医学信息聚类"的一点思路

最新推荐文章于 2024-08-10 07:14:43 发布

zuroc

最新推荐文章于 2024-08-10 07:14:43 发布

阅读量155

点赞数

分类专栏：网络文章标签：算法 Python 领域模型 HTML IDEA

网络专栏收录该内容

75 篇文章 0 订阅

订阅专栏

等开学考试过后正式开工,现在先理清一下思路

1.分词
出于效率的考虑还是用最大匹配及其变种
参考文献:
http://xiecc.itpub.net/post/1476/52479
和
<<MMSeg分词算法简述>>

另外还应该有一个算法负责提取新词,专业词汇.
目前的思路是基于概率统计
参考文献:
基于N元汉字串模型的文本表示和实时分类的研究与实现.pdf

新词,专业词库训练材料的来源
可以通过抓取万方中的
标题,摘要,关键字(可以直接加入词库)

万方提供OPML(RSS目录),大大简化我的抓取(更新)工作(feedparser)
不过为了更多的历史数据,有时间还是应该去抓取一下html

聚类是基于关键词的,内容有
1.自动提取文章关键词(tag)
参考文献:
基于文本分类中特征提取的领域词语聚类

2.多关键词扫描
最后是写爬虫,抓取网页,然后聚类(简单向量距离?)
对大网站,可以手工写内容提取规则(BeautifulSoup.py)

然后还可以构建一个网站:)

已完成的东西:
AC算法和其python封装
异步的html抓取
html中噪音去除(不是完美,但也凑合,参见<<从HTML文件中抽取正文的简单方案>>)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
毕业设计"医学信息聚类"的一点思路

等开学考试过后正式开工,现在先理清一下思路1.分词出于效率的考虑还是用最大匹配及其变种参考文献:http://xiecc.itpub.net/post/1476/52479和另外还应该有一个算法负责提取新词,专业词汇.目前的思路是基于概率统计参考文献:基于N元汉字串模型的文本表示和实时分类的研究与实现.pdf新词,专业词库训练材料的来源可...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。