文本分类
向日葵盛开
这个作者很懒,什么都没留下…
展开
-
文本分类入门(九)文本分类问题的分类
<br /><br />开始之前首先说说分类体系。回忆一下,分类体系是指事先确定的类别的层次结构以及文档与这些类别间的关系。<br /> 其中包含着两方面的内容:<br /> 一,类别之间的关系。一般来说类别之间的关系都是可以表示成树形结构,这意味着一个类有多个子类,而一个子类唯一的属于一个父类。这种类别体系很常用, 却并不代表它在现实世界中也是符合常识的,举个例子,“临床心理学”这个类别应该即属于“临床医学”的范畴,同时也属于“心理学”,但在分类系统中却不便 于使用这样的结构。想象一下,这相当于类别原创 2011-04-15 14:01:00 · 400 阅读 · 0 评论 -
特征选择
<br />特征提取实际上有两大类方法。一类称为特征选择(Term Selection),指的是从原有的特征(那许多有用无用混在一起的词汇)中提取出少量的,具有代表性的特征,但特征的类型没有变化(原来是一堆词,特 征提取后仍是一堆词,数量大大减少了而已)。另一类称为特征抽取(Term Extraction)的方法则有所不同,它从原有的特征中重构出新的特征(原来是一堆词,重构后变成了别的,例如LSI将其转为矩阵,文档生成模型将其 转化为某个概率分布的一些参数),新的特征具有更强的代表性,并耗费更少的计算资源。原创 2011-04-14 16:53:00 · 359 阅读 · 0 评论 -
文本分类入门(七)相关概念总结
<br /><br />学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。<br /> 监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。<br /> 非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程 [22]。典型的非监督学习例子是聚类,类别的数量,名称,事先全都没有确定,由计算机自己观察样例来总结得原创 2011-04-15 13:55:00 · 275 阅读 · 0 评论