一、前言
随着中国经济的崛起,宠物行业以惊人的速度迅猛发展,宠物的角色也从单纯的赏玩转变为精神的寄托。养宠人群的不断扩大带来了宠物产品需求端膨胀,宠物产品行业受到资本市场的青睐逐渐兴起。
然而供需之间存在的信息不对称往往是一个行业发展的绊脚石,不能好好理解受众的需求,势必会影响生产商的成长速度和成长方向。因此本文选择宠物产品行业新兴发展品类——宠物清洁产品,从大数据与自然语言处理(NLP)的角度深入挖掘用户对清洁类产品的需求。
二、社群类平台网络文本挖掘-豆瓣
豆瓣小组是豆瓣网旗下的用户分享社区,其主要定位即“对同一话题感兴趣的人的聚集地”,包含影视、读书、音乐、旅行、人文、摄影等领域,这些小组构筑起了豆瓣网庞大的社群体系,形成了众多亚文化种类。其自发性讨论的社交模式以及审批制入组的运营模式能够极大程度上减少广告、水军等冗杂数据的可能性。
2.1 爬虫的实现
豆瓣网站中的宠物用品大集合小组,是集合了9820位已养宠人群交流宠物产品的小组。通过Python利用Requests库和Bs4爬取其中前40页987个帖子标题及内容,实现代码如下:
import random
import csv
import time # 引入时间库 定义请求间隔
import requests ##导入requests
from bs4 import BeautifulSoup ##导入Beautif