![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
wxl1999
这个作者很懒,什么都没留下…
展开
-
爬虫学习3.1 使用selenium模拟登陆163邮箱
任务描述 安装selenium并学习 安装selenium并学习。 使用selenium模拟登陆163邮箱。 163邮箱直通点:https://mail.163.com/ 。 参考资料:https://blog.csdn.net/weixin_42937385/article/details/88150379 话不多说,先上代码: import time from selenium impo...原创 2019-04-10 23:30:03 · 624 阅读 · 0 评论 -
爬虫学习记录
爬虫学习 主要学习的资料是嵩天老师的Python网络爬虫与信息提取课程 这里先附上课程学习时一起练习的几段代码: import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r....原创 2019-04-07 21:57:13 · 158 阅读 · 1 评论 -
爬虫学习3.2 抓取西刺代理,并构建自己的代理池
任务描述 学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。 抓取西刺代理,并构建自己的代理池。 西刺直通点:https://www.xicidaili.com/ 。 参考资料:https://blog.csdn.net/weixin_43720396/article/details/88218204 如何应对IP被封的问题 伪造User-Agent 在请求头中把User-Ag...原创 2019-04-11 19:12:02 · 185 阅读 · 0 评论 -
爬虫学习2.1 使用beautifulsoup提取丁香园论坛的回复内容
任务描述 学习beautifulsoup,并使用beautifulsoup提取内容。 使用beautifulsoup提取丁香园论坛的回复内容。 丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626 。 参考资料:https://blog.csdn.net/wwq114/article/details/88085875 话不多说,先上代码: def...原创 2019-04-08 17:06:30 · 242 阅读 · 0 评论 -
爬虫学习2.2 使用xpath提取丁香园论坛的回复内容
任务描述 学习xpath,使用lxml+xpath提取内容。 使用xpath提取丁香园论坛的回复内容。 丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626 。 参考资料:https://blog.csdn.net/naonao77/article/details/88129994 话不多说,先上代码: def getHTMLText(url):...原创 2019-04-08 23:38:04 · 277 阅读 · 0 评论 -
爬虫学习Task7 实战大项目
任务描述 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。 话不多说,先上代码: def getHTMLText(url): try: user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x...原创 2019-04-12 22:29:27 · 232 阅读 · 0 评论