微博相关性判断算法
关于微博的分类算法,可以采用机器学习的方法,比如支持向量机,亦可以采用词典匹配法。
支持向量机:
在一些情况下的确能够取得一定的效果,但是缺点也很明显。首先它要获取特征向量,特征向量的数目以及选取方法也对最后的分类效果起着重要的作用,所以这又涉及到了一个特征向量选取的重要算法;其次支持向量机需要样本进行训练,如果没有已经标记过的样本的话,依靠我们手工去标注,这无疑会把大量的时间浪费在人工上而不是依靠计算机的计算能力;最后,支持向量机不是万能的,当我们要进行行业相关性的判定时,即便我们提取了上千个特征向量,但是相对一个行业的浩瀚术语来讲依然是杯水车薪,这个时候如果用支持向量机的方法会造成很多相关的文本的特征向量全部是0,或者相关的特征向量微乎其微,误判就会在这个时候发生了,所以此时采取机器学习的方法就不是最理想的选择。
词典匹配算法:
词典匹配算法可以说是最原始的文本分类算法,它的原理是要建立起一个分类词典,然后提取每个样本中的词汇与分类词典中的词汇匹配,根据匹配的程序来判断分类。虽然词典匹配算法可以说是原始,但是原始的算法未必就不是最佳的算法,就以此项目中的微博相关性分类来说,首先每个微博的长度都是很短的,不超过140个字,平均来说就是说最多70个词语,很多微博仅仅一句话,词语数目就更加短了,所以微博要表达的核心思想就体现在了微博中的那些关键词上;其次对于中医相关性来说,中医术语浩瀚如海,包括中医的各种治疗方法,中草药