python+selenium某投诉平台词云展现

逆风奔跑的根号

于 2021-11-23 13:17:30 发布

阅读量1.5k

点赞数

文章标签： python 数据分析爬虫

本文链接：https://blog.csdn.net/weixin_44397410/article/details/121490959

版权

本文通过Python的selenium库不断下拉网页，抓取了一个消费者投诉平台上的1.4万条数据，进行数据分析，包括分词、去停用词、词语替换等处理，最终生成词云图，揭示了双十一期间虚假宣传是主要投诉问题。提供完整爬虫及数据处理代码供读者参考学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本人最近想了解下关于双十一投诉的问题，就搜索了下投诉平台，发现某投诉平台是比较合适的（消费者投诉平台，24小时有效投诉1万5千条）。

搜索关键词后，发现网站的翻页是下拉加载的方式。每下拉到底一次就加载下一页。

深思熟虑，采取一种简单的方式，使用selenium不断的（看想采集数据的多少决定次数，鄙人是1500次）下拉滚动条到底，然后再获取当前页面的html。

for i in range(1500):
    js = "var q=document.documentElement.scrollTop=10000000"
    driver.execute_script(js)
    time.sleep(random.randint(1,2))

加载一次10条数据，获取了1.4W条，用pandas保存为excel，格式如下