![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
等一杯清茶
一把陈壶,装上二月的新绿。岁月的炉火,烹煮云水涯。日子在茶中,波澜不惊。
展开
-
使用Cookie自动模拟登录并爬取人人网指定网页
使用Cookie自动模拟登录并爬取人人网指定网页 思路: 获取cookie 登录 访问指定页面 获取cookie: 思路:必须声明一个CookieJar对象,然后利用HTTPCookieProcessor来构建一个Handler,最后利用bulid_opener()方法构建出Opener,执行open()函数即可。 代码如下: cookiejar = CookieJar() h...原创 2019-10-20 16:10:02 · 833 阅读 · 0 评论 -
爬虫之爬百度贴吧
这个爬虫程序主要是爬取贴吧帖子的title和url,如果需要爬内容只需要修改部分代码就行 我使用的技术是python和xpath 思路: 获取主URL 获取数据 提取数据,进行解析 获取下一页的url 终止循环 代码: import requests from lxml import etree class PaChong(object): """爬百度贴吧""" def __init__(self, name): self.url = 'https://tieba.baid原创 2020-09-19 16:43:46 · 1028 阅读 · 0 评论 -
爬虫之爬取图片
借助python和bs4爬取图片 import requests import os from bs4 import BeautifulSoup headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36' } start_url = 'www.xxxx' start_html =原创 2020-12-08 09:58:02 · 530 阅读 · 0 评论