情感分析(Sentiment Analysis)的难题

我们对在线文本进行文本挖掘的任务之一,就是进 行情感分析(SentimentAnalysis),即分析发贴人对某个对象的态度是正面还是负面。这个过程当然不是仅仅查找"好","坏"这些关键字那 么简单,有时候相似度很高的句子,却反映了截然不同的态度,譬如下面这两句话

"这瓶洗发水,适合头发很干的人用" "用了这瓶洗发水,头发变得很干"

两个句子中的主要成分都差不多,"洗发水","头发","很干",但是第一句是褒义,第二句则很可能是贬义。对于后一句的处理还算简单,告诉计算机 程序头发"很干"不好,因此让头发"变得""很干"的洗发水,也就不是好的洗发水。而前一句呢,我们能够理解"适合头发很干的人用"是指使用该洗发水后, 能让头发变得不那么干燥点。但是假设我们告诉计算机,"某某产品适合XXX的人用"就是指用了某某产品后,XXX的人就会变得不那么XXX,那么当计算机 处理"这件衣服,适合漂亮女生穿",你猜它会怎么理解?(漂亮的女生穿了就会变得不那么漂亮)

还有一类问题是讽刺(反话)和幽默,国外的一个自然语言处理专家也在他的blog上感叹道,"Humor is hard"。在国内,很多褒义词受到论坛文化的影响,往贬义词发展的趋势,例如"我太崇拜你了","你太有才了"。

说到底,这些都是自然语言处理面对的一个挑战,即如何将生活经验、文化传统等表达为一种可以被计算机理解和利用的形式。

写到这儿,我同事的电脑刚刚蓝了一次屏,他跟我说,"这电脑也太稳定了吧"。

 

 

 

抛开讽刺、反语和幽默不谈(这个不同国家,不同文化背景的人理解也不同),就情感分类本身而言也是一个比"想象中"要难很多的课题。自然语言分析是一个多年未解的难题,更别说加入了情感,这个人性中最复杂的因素之一。

根 据我们以前的研究经验,产品的口碑可以算是比较容易分析的。如果你看过电影的评论(Movie Review),就会发现这个问题有多么的可怕。目前通常的解决方法有两大类:非监督式学习和监督式学习。前者依赖字典等提供带有情感的词,例如”很好 “,”喜欢”等等进行分类。后者通过大量的标注文本进行学习和分类。非监督式的优点在于无需人工参与,起步快,精度较高,适合不同领域,但缺点是覆盖面很 低。这主要是因为情感的表达方式很多样,尤其是用户表达不满的时候。监督式的优点是只要标注的文本足够多,精度和覆盖率都会有保证,缺点自然是需要很多人 工的力量。在实际应用中,我们往往会将这两者结合起来,达到预期的效果。

就上面的这个例子而言,可能监督式更适合些。“很干”在不同的上 下文,不同产品领域,所表达的情感是不定的。当然了,标注这一句话是简单的,如果人工标准需要很多很多呢?是不是现实?如果标注的量大大超出我们的预期, 为什么还要一个所谓的自动算法呢?这倒有些像“先有鸡还是先有蛋”的问题了。根据我们目前的经验,比较实际的做法是让电脑处理那些比较简单的句子(大概 10%-30%),剩下的人为标注。这样日积月累,我们也可以不断提高电脑所能处理的句型了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值