![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
等一杯清茶
一把陈壶,装上二月的新绿。岁月的炉火,烹煮云水涯。日子在茶中,波澜不惊。
展开
-
使用Cookie自动模拟登录并爬取人人网指定网页
使用Cookie自动模拟登录并爬取人人网指定网页思路:获取cookie登录访问指定页面获取cookie:思路:必须声明一个CookieJar对象,然后利用HTTPCookieProcessor来构建一个Handler,最后利用bulid_opener()方法构建出Opener,执行open()函数即可。代码如下: cookiejar = CookieJar() h...原创 2019-10-20 16:10:02 · 835 阅读 · 0 评论 -
爬虫之爬百度贴吧
这个爬虫程序主要是爬取贴吧帖子的title和url,如果需要爬内容只需要修改部分代码就行我使用的技术是python和xpath思路:获取主URL获取数据提取数据,进行解析获取下一页的url终止循环代码:import requestsfrom lxml import etreeclass PaChong(object): """爬百度贴吧""" def __init__(self, name): self.url = 'https://tieba.baid原创 2020-09-19 16:43:46 · 1030 阅读 · 0 评论 -
爬虫之爬取图片
借助python和bs4爬取图片import requestsimport osfrom bs4 import BeautifulSoupheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36'}start_url = 'www.xxxx'start_html =原创 2020-12-08 09:58:02 · 530 阅读 · 0 评论