- 首先,从每位 reviewer 的评论日志里,提取 review 的content features 和 behavior features。content features 主要关注评论的内容特征,比如, symbol ratio、相似评论的数量,等。behavior features 是考量在指定的一段时期,对评论者发布的评论数量,评论的星级、24小时内评论的分布情况,等。
- 建立一个Graph,reviewer 为节点,如果两个reviewer 评论了同一个APP,就在它们中间建立一条连边。这样,就把 review log构建成Graph了。
1、review classification
首先,提取 review 的内容特征(Content features),对review进行分类。
- SRN:在指定的时期内,相似评论的数量;
- RSN : 每条评论里,特殊字符的数量,比如,表情符号、火星符号;一般来说,垃圾评论包含超过50%的符号;
- RL:每条评论的长度
- PRR: R S N / R L RSN/RL RSN/RL
- REB: 垃圾评论里通常包含一些有明显意图的内容,例如,手机号码、含糊其词的词汇(例如,VX,)
2、reviewer analysis
从评论者身上提取了两个主要的特征,对 reviewer 进行分类:
- CD(continuous days):在指定的一段时期内,连续评论的天数;
- DN( number of login device):在这期间,登录的设备数;
经过很多轮的数据分析,文章得出的结论是,将阈值设为CD=7,DN=20,能够检测出高风险的 reviewer;
表2列出了,从每位 Reviewer 身上提取的特征:
- RQ:在指定的时期内,each reviewer 的总的评论数目;
- TQD:在24小时内,each reviewer 的评论分布;
- SQD:each reviewer的所有评论的星级分布;