采用selenium与xpath结合,先模拟登录再进行相关信息爬取,不过我不是仅仅把上次爬取丁香园的代码强加上去,我把取得源代码的自定义函数去掉,用了selenium的get函数,url用的是登陆后的url,可以用
这样直接得到登录之后爬取页的源代码,之后的解析就很简单了。
源代码如下:
运行结果:
等等。
对了,模拟登录次数多了,会出现验证码,留待后续解决!
模拟登录丁香园获取全部回复
最新推荐文章于 2021-03-10 22:08:12 发布
采用selenium与xpath结合,先模拟登录再进行相关信息爬取,不过我不是仅仅把上次爬取丁香园的代码强加上去,我把取得源代码的自定义函数去掉,用了selenium的get函数,url用的是登陆后的url,可以用
这样直接得到登录之后爬取页的源代码,之后的解析就很简单了。
源代码如下:
运行结果:
等等。
对了,模拟登录次数多了,会出现验证码,留待后续解决!