爬虫
whalefall
找工作ing
展开
-
datawhale爬虫task-1之正则表达式
【任务一】(3天)1.1 学习get与post请求学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。了解什么是请求头,如何添加请求头。1.2 正则表达式学习什么是正则表达式并尝试一些正则表达式...原创 2019-04-07 20:47:36 · 288 阅读 · 0 评论 -
datawhale爬虫task-3之selenium
Task5 安装selenium并学习安装selenium并学习。使用selenium模拟登陆163邮箱。163邮箱直通点:https://mail.163.com/ 。参考资料:https://blog.csdn.net/weixin_42937385/article/details/881503791,Selenium简介Selenium是一个用于测试网站的自动化测试工具...原创 2019-04-11 22:00:14 · 256 阅读 · 0 评论 -
datawhale爬虫task-2之BeautifulSoup实战
2.1 学习beautifulsoup学习beautifulsoup,并使用beautifulsoup提取内容。使用beautifulsoup提取丁香园论坛的回复内容。丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626 。参考资料:https://blog.csdn.net/wwq114/article/details/88085875...原创 2019-04-09 11:54:21 · 255 阅读 · 0 评论 -
datawhale爬虫task-2之Xpath
2.2 Task4 学习xpath 学习xpath,使用lxml+xpath提取内容。使用xpath提取丁香园论坛的回复内容。丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626 。参考资料:https://blog.csdn.net/naonao77/article/details/88129994使用xpath提取丁香园论坛的回...原创 2019-04-09 15:17:46 · 277 阅读 · 0 评论 -
whaledata爬虫task-4之爬虫实战
4.1 Task7 实战大项目实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。思路模拟登录丁香园论坛 抓取评论和用户的个人主页链接 抓取用户个人主页信息 数据存储#!/usr/bin/env python# -*- coding: u...原创 2019-04-13 21:09:39 · 285 阅读 · 0 评论