情感分析(Sentiment Analysis)的难题

最新推荐文章于 2024-06-09 07:30:00 发布

xiakeyou

最新推荐文章于 2024-06-09 07:30:00 发布

阅读量1.1k

点赞数

分类专栏：自然语言理解文章标签：情感自然语言处理产品算法 blog 生活

自然语言理解专栏收录该内容

2 篇文章 0 订阅

订阅专栏

我们对在线文本进行文本挖掘的任务之一，就是进行情感分析(SentimentAnalysis)，即分析发贴人对某个对象的态度是正面还是负面。这个过程当然不是仅仅查找"好"，"坏"这些关键字那么简单，有时候相似度很高的句子，却反映了截然不同的态度，譬如下面这两句话

"这瓶洗发水，适合头发很干的人用" "用了这瓶洗发水，头发变得很干"

两个句子中的主要成分都差不多，"洗发水"，"头发"，"很干"，但是第一句是褒义，第二句则很可能是贬义。对于后一句的处理还算简单，告诉计算机程序头发"很干"不好，因此让头发"变得""很干"的洗发水，也就不是好的洗发水。而前一句呢，我们能够理解"适合头发很干的人用"是指使用该洗发水后，能让头发变得不那么干燥点。但是假设我们告诉计算机，"某某产品适合XXX的人用"就是指用了某某产品后，XXX的人就会变得不那么XXX，那么当计算机处理"这件衣服，适合漂亮女生穿"，你猜它会怎么理解？(漂亮的女生穿了就会变得不那么漂亮)

还有一类问题是讽刺(反话)和幽默，国外的一个自然语言处理专家也在他的blog上感叹道，"Humor is hard"。在国内，很多褒义词受到论坛文化的影响，往贬义词发展的趋势，例如"我太崇拜你了"，"你太有才了"。

说到底，这些都是自然语言处理面对的一个挑战，即如何将生活经验、文化传统等表达为一种可以被计算机理解和利用的形式。

写到这儿，我同事的电脑刚刚蓝了一次屏，他跟我说，"这电脑也太稳定了吧"。

抛开讽刺、反语和幽默不谈（这个不同国家，不同文化背景的人理解也不同），就情感分类本身而言也是一个比"想象中"要难很多的课题。自然语言分析是一个多年未解的难题，更别说加入了情感，这个人性中最复杂的因素之一。

根据我们以前的研究经验，产品的口碑可以算是比较容易分析的。如果你看过电影的评论(Movie Review)，就会发现这个问题有多么的可怕。目前通常的解决方法有两大类：非监督式学习和监督式学习。前者依赖字典等提供带有情感的词，例如”很好 “，”喜欢”等等进行分类。后者通过大量的标注文本进行学习和分类。非监督式的优点在于无需人工参与，起步快，精度较高，适合不同领域，但缺点是覆盖面很低。这主要是因为情感的表达方式很多样，尤其是用户表达不满的时候。监督式的优点是只要标注的文本足够多，精度和覆盖率都会有保证，缺点自然是需要很多人工的力量。在实际应用中，我们往往会将这两者结合起来，达到预期的效果。

就上面的这个例子而言，可能监督式更适合些。“很干”在不同的上下文，不同产品领域，所表达的情感是不定的。当然了，标注这一句话是简单的，如果人工标准需要很多很多呢？是不是现实？如果标注的量大大超出我们的预期，为什么还要一个所谓的自动算法呢？这倒有些像“先有鸡还是先有蛋”的问题了。根据我们目前的经验，比较实际的做法是让电脑处理那些比较简单的句子（大概 10%-30%），剩下的人为标注。这样日积月累，我们也可以不断提高电脑所能处理的句型了。