今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况。
这是好友的QQ空间10年说说内容,基本有一个大致的印象了。
爬取动态内容
1.因为动态页面的内容是动态加载出来的,所以我们需要不断下滑,加载页面
2.切换到当前内容的frame中,也有可能不是frame,这里需要查看具体情况
3.获取页面源数据,然后放入xpath中,然后读取
# 下拉滚动条,使浏览器加载出动态加载的内容,
# 我这里是从1开始到6结束 分5 次加载完每页数据
for i in range(1,6):
height = 20000*i#每次滑动20000像素
strWord = "window.scrollBy(0,"+str(height)+")"
driver.execute_script(strWord)
time.sleep(4)
# 很多时候网页由多个<frame>或<iframe>组成ÿ