python简单实现天猫手机评论标签提取--自然语言处理
作为国产机的脑残粉,这次试试用自然语言处理的方法简单的提取手机评论的标签。大概步骤:
爬取手机的10万条评论文本
结巴中文分词,提取前20个频率高的名词+形容词
结巴分词,去停用词,制作语料库
gensim自然语言处理库的word2vec,训练语料库,计算各个名词和形容词之间的相似度,得出前20相似度最高的组合短语
1.爬取手机的10万条评论文本天猫的评论数据并非直接在评论页中网页点击右键“查看网页
原创
2017-08-21 11:55:30 ·
6692 阅读 ·
8 评论