短文本处理
Queenie_水水
这个作者很懒,什么都没留下…
展开
-
文本特征提取方法研究
文本特征提取方法研究 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据转载 2014-04-17 19:10:39 · 1005 阅读 · 1 评论 -
中文搜索引擎之文本分类
中文搜索引擎之文本分类 2007/06/04 作者:Kelvin from Hour41 (www.hour41.com ) 文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据挖掘、计算语义学、信息学、人工智能等个学科,是自然语言处理的一个重要应用领域。 目前,越来越多的统计分类方法、机器学习方法、数据挖掘技术和其它的新技术被应用转载 2014-04-10 19:15:38 · 1099 阅读 · 0 评论 -
TF-IDF理解及其Java实现
TF-IDF 前言 前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。 TF-IDF理解 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且转载 2014-04-10 22:03:51 · 741 阅读 · 1 评论