![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
周禕华Martin
这个作者很懒,什么都没留下…
展开
-
爬虫学习Day1:学习get与post请求
任务【Task1 学习get与post请求】:(1天)1.学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。2.如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。3.了解什么是请求头,如何添加请求头。Task 1用get方法向https://www.baidu....原创 2019-02-28 23:29:03 · 349 阅读 · 0 评论 -
爬虫学习Day4:学习xpath
文章目录任务获取URL及获取Cookie正则表达式/BS4/Xpath区别获取Xpath获取Title任务【Task4 学习xpath 】:(1天)学习xpath,使用lxml+xpath提取内容。使用xpath提取丁香园论坛的回复内容。丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626 。获取URL及获取Cookie这部分的内容与昨天...原创 2019-03-04 21:59:57 · 264 阅读 · 0 评论 -
爬虫学习Day5:学习selemium
文章目录任务任务【Task5 安装selenium并学习】:(1天)安装selenium并学习。使用selenium模拟登陆163邮箱。163邮箱直通点:https://mail.163.com/ 。原创 2019-03-04 22:28:57 · 367 阅读 · 0 评论 -
爬虫学习Day2:正则表达式
文章目录任务获取豆瓣电影 Top 250的URL获取内容,分析结果使用以下代码,获取结果分析返回的结果组合代码任务【Task2 正则表达式】:(1天)学习什么是正则表达式并尝试一些正则表达式并进行匹配。然后结合requests、re两者的内容爬取https://movie.douban.com/top250里的内容要求抓取名次、影片名称、国家、导演等字段。获取豆瓣电影 Top 250的...原创 2019-03-02 20:56:32 · 365 阅读 · 0 评论 -
爬虫学习Day6:ip
文章目录任务任务【Task6 学习IP相关知识】:(1天)学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。抓取西刺代理,并构建自己的代理池。西刺直通点:https://www.xicidaili.com/...原创 2019-03-06 08:36:59 · 528 阅读 · 0 评论 -
爬虫学习Day3:学习beautifulsoup
文章目录任务使用浏览器看到要抓取的内容使用cookie分析结果组织结果下一步:获取内容中的图片,保存到本地任务【Task3 学习beautifulsoup】:(1天)学习beautifulsoup,并使用beautifulsoup提取内容。使用beautifulsoup提取下面丁香园论坛的特定帖子的所有回复内容,以及回复人的信息。丁香园直通点:http://www.dxy.cn/bbs/...原创 2019-03-03 14:30:21 · 424 阅读 · 0 评论 -
爬虫学习Day7:实战项目
文章目录任务任务【Task7 实战大项目】:(1天)实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。...原创 2019-03-06 23:16:23 · 177 阅读 · 0 评论