本人最近想了解下关于双十一投诉的问题,就搜索了下投诉平台,发现某投诉平台是比较合适的(消费者投诉平台,24小时有效投诉1万5千条)。
搜索关键词后,发现网站的翻页是下拉加载的方式。每下拉到底一次就加载下一页。
深思熟虑,采取一种简单的方式,使用selenium不断的(看想采集数据的多少决定次数,鄙人是1500次)下拉滚动条到底,然后再获取当前页面的html。
for i in range(1500):
js = "var q=document.documentElement.scrollTop=10000000"
driver.execute_script(js)
time.sleep(random.randint(1,2))
加载一次10条数据,获取了1.4W条,用pandas保存为excel,格式如下