文献阅读 - Mining and Summarizing Customer Reviews

本文提出了一种名为FBS的系统,用于挖掘和总结用户产品评论,重点关注产品特征及其情感倾向。该系统通过词性标注、高频和低频特征识别、观点词抽取等步骤,识别出产品特征、用户的情感态度,然后生成不依赖模板的摘要。实验表明,FBS在特征识别和摘要生成方面表现出色。
摘要由CSDN通过智能技术生成

Mining and Summarizing Customer Reviews


M.Q. Hu, B. Liu, Mining and Summarizing Customer Reviews, KDD (2004)


摘要

挖掘并总结用户关于某个产品的评论

仅挖掘用户给出褒义、贬义评论的产品特征(only mine the features of the product on which the customers have expressed their opinions and whether the opinions are positive or negative)

步骤:

  1. 挖掘用户给出评价(review)的产品特征;

  2. 识别评论中的观点语句(identifying opinion sentences),并标记每条观点语句的感情色彩(褒义、贬义(positive or negative));

  3. 总结(summarizing the results)

1 引言

背景:产品评论爆发式增长,但观点语句占比不高。

目的:生成基于产品特征的用户评价(generating feature-based summaries of customer reviews of products)。

特征(features)指产品特征和功能(product features (or attributes) and functions)。

任务:

  1. 挖掘用户给出观点(opinion)的产品特征(identifying features of the product that customers have expressed their opinions on (called product features));

  2. 针对每个特征,识别表达褒义、贬义观点的评论语句(for each feature, identifying review sentences that give positive or negative opinions);

  3. 生成总结(producing a summary using the discovered information)。

在这里插入图片描述
步骤:

  1. 挖掘(mining)用户给出评价(comment on)的产品特征(product features);

  2. 识别评论中的观点语句(identifying opinion sentences in each review),并标记每条观点语句的感情色彩(褒义、贬义(positive or negative));

    • 识别观点词(opinion words)集(表达观点的形容词集合(a set of adjective words));

    • 标识每个观点词的感情色彩(semantic orientation):褒义(positive)、贬义(negative),通过WordNet引导(bootstrapping)实现;

    • 标识每条语句观点的感情色彩(the opinion orientation of each sentence)

  3. 总结(summarizing the results)

FBS(Feature-Based Summarization)系统

2 相关工作

与已知工作相比,本文特色包括:(1)将评论拆分成语句,对其中的观点语句进行分类;(2)挖掘产品特征;(3)不依赖语料库(corpus)。本文目标为识别产品特征、用户对产品各特征的态度并生成不依赖模板(template)的总结;

2.1 流派分类(Subjective Genre Classification)

2.2 情感分类(Sentiment Classification)

手工标识种子形容词列表(manually create a small list of seed adjectives tagged with positive or negative labels),使用WordNet对其扩充(grow this list using WordNet)。

2.3 文本摘要(Text Summarization)

文本摘要生成方法:(1)模板实例化(template instantiation);(2)段落抽取(passage extraction)。前者需要与领域(domain)、流派(genre)相关的背景知识(background knowledge)以识别、抽取特定核心实体(certain core entities and facts)并填写模板(packaged in a template);后者需要识别文档核心表达语句(certain segments of the text (typically sentences) that are the most representative of the document’s content)。

本文工作无需模板、与领域无关、不进行文档抽取,而是识别、抽取产品特征及其相关观点(identify and extract those specific product features and the opinions related to them)。

2.4 术语查询(Terminology Finding)

术语查询方法:(1)符号法(symbolic approaches);(2)统计方法(statistical approaches)

3 方法(THE PROPOSED TECHNIQUES)

FBS系统框架:

在这里插入图片描述
输入:产品名称(product name)、该产品的评论页面(an entry Web page for all the reviews of the product)

流程:(1)挖掘用户给出评价的产品特征;(2)识别评论中的观点语句并标记每条观点语句的感情色彩;(3)总结。

3.1 词性标注(Part-of-Speech Tagging,POS)

产品特征通常是评论语句中的名词(nouns)或名词词组(noun phrases),本文使用NLProcessor语言解析器(linguistic parser)为评论标注词性(part-of-speech tagging):

在这里插入图片描述
预处理操作(pre-processing):去除停用词(removal of stopwords)、词干化(stemming)、模糊匹配(fuzzy matching),其中模糊匹配用于处理词形变化(word variants)及拼写错误(misspellings)。

3.2 高频特征识别(Frequent Features Identification)

高频特征:经多人评价的产品特征(product features on which many peo

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值