新浪微博热搜爬虫
本文详细介绍了爬取新浪微博热搜榜单的步骤,只需使用python软件本体和requests_html库即可完成,难度小,完成快,适合新手上手练习。
第一步:进入新浪热搜完整榜单页面,记录页面网址。
第二步:按F12,打开开发者工具。(使用Chorme浏览器)
第三步:点击开发者工具左上角图标,然后点选热搜榜中的文字,就可以找出热搜榜中的每一个在网页中的具体位置。
第四步:在开发者工具中的蓝色部分右击鼠标,依次选择Copy–Copy selector,就可以获得到这个热搜位置的selector。
第五步:依次复制前几个热搜的selector,就可以发现规律——只需改变child()中的数字,从1到51,即可获得完整榜单的selector
做到这里,就已经找到了热搜榜网页网址,还有每一条热搜的selector,下面进入写代码阶段。
第一步:准备工作(需提前安装第三方库requests_html)
from requests_html import HTMLSession
session = HTMLSession(