[原]基于体裁的中文网页自动分类的研究与实现

版权说明:本论文为原创性文章,已经公开发表在 中国科技论文在线 ( http://www.paper.edu.cn ) 。未经许可不可剽窃、抄袭、转载,违者责任自负。引用者请注明出处如下:  

赵文, 唐建雄. 基于体裁的中文网页自动分类的研究与实现[EB/OL]. 中国科技论文在线(http://www.paper.edu.cn), 2008,4.

论文下载地址:http://www.paper.edu.cn/paper.php?serial_number=200804-268&task=comment

论文摘要:

基于体裁的中文网页自动分类的研究与实现

E-mailzw_79@163.com

  要:为了优化互联网信息检索系统,使其能更准确的从结果集中区分出满足用户需要的页面,本文提出了一种对网页按体裁分类的方法。该方法以网页的标签、形态、内容、词性作为体裁特征,并以特征项的频率、集中度和分散度三者结合为衡量标准,利用自动特征选取技术,从中选取出有价值的特征项;然后采用基于相似度加权的KNN分类算法对网页按体裁进行自动分类;最后设计和实现了分类系统,并进行了实验测试与结果分析。结果表明:分类器开放测试的平均精度达到80%。

关键词网页分类;体裁;特征提取;K近邻算法

中图分类号:TP391           文献标识码:A

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值