python爬虫
文章平均质量分 81
酒鬼考拉
这个作者很懒,什么都没留下…
展开
-
Python爬虫:搜狗(微信,知乎)公众号内容
Python爬虫:搜狗(微信,知乎)公众号内容搜狗微信公众号链接:https://weixin.sogou.com/weixin?query=神州十二号&type=2&page=2&ie=utf8&p=01030402&dp=1需要登录,登录可以查看100页的内容F12打开开发者工具,可以查看每一篇文章的跳转url:这里比较简单,直接用xpath获取就可以了,不多说,上代码: import requests,re from lxml import e原创 2021-08-24 11:07:51 · 2174 阅读 · 2 评论 -
最新。Python抓取某大型文章网站 --- 仅供学习使用(解决最新js反爬2022.9)
Python爬虫爬取知乎文章(含js反爬)最近的业务要求去写一个关于知乎的爬虫,在这记录一下在爬取过程中出现的问题以及解决方法知乎链接:https://www.zhihu.com/众所周知,知乎是需要登录的。登录以后,搜索一个关键字,我这里搜索 奥运会在这里想要获取每一条内容的标题和第一条用户回答(就是点击阅读全文后的内容):而且想要获取多条,比如100条,需要怎么做呢?先看一下知乎展现内容容的机制,发现鼠标滚轮往下滑的时候,内容被一点一点加载出来了,这里显然是用的ajax加载。知道了加原创 2021-08-09 17:33:04 · 6450 阅读 · 160 评论 -
利用xpath爬取百度贴吧内容返回空列表的问题
利用xpath爬取百度贴吧内容返回空列表问题描述:用etree爬取百度贴吧的时候,用xpath获取不到内容(虽然是个小问题但也让我花了好久!)如下:想要获取图下方框中的内容写的爬虫获取页面内容代码:import requestsfrom lxml import etreebase_url = "https://tieba.baidu.com/f?kw=英雄联盟&ie=utf-8&pn=0"head = { 'User-Agent':'Mozilla/5.0 (W原创 2020-10-29 06:43:31 · 990 阅读 · 3 评论