python+selenium某投诉平台词云展现

本文通过Python的selenium库不断下拉网页,抓取了一个消费者投诉平台上的1.4万条数据,进行数据分析,包括分词、去停用词、词语替换等处理,最终生成词云图,揭示了双十一期间虚假宣传是主要投诉问题。提供完整爬虫及数据处理代码供读者参考学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      本人最近想了解下关于双十一投诉的问题,就搜索了下投诉平台,发现某投诉平台是比较合适的(消费者投诉平台,24小时有效投诉1万5千条)。

      搜索关键词后,发现网站的翻页是下拉加载的方式。每下拉到底一次就加载下一页。

      深思熟虑,采取一种简单的方式,使用selenium不断的(看想采集数据的多少决定次数,鄙人是1500次)下拉滚动条到底,然后再获取当前页面的html。

for i in range(1500):
    js = "var q=document.documentElement.scrollTop=10000000"
    driver.execute_script(js)
    time.sleep(random.randint(1,2))

加载一次10条数据,获取了1.4W条,用pandas保存为excel,格式如下

评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值