爬虫
咕噜噜卡莫
这个作者很懒,什么都没留下…
展开
-
Datawhale 爬虫 Task 04
爬取腾讯新闻1.了解ajax加载2.通过chrome的开发者工具,监控网络请求,并分析3.用selenium完成爬虫:用selenium爬取https://news.qq.com/ 的热点精选import timefrom selenium import webdriverimport pandas as pdfrom bs4 import BeautifulSoupdriv...原创 2020-04-27 18:00:06 · 166 阅读 · 0 评论 -
Datawhale 爬虫 task 03
本文内容源自datawhale 爬虫组队学习的教程,更多知识可参考:datawhale爬虫关于IP为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如何应对IP被封的问题有几种套路:修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔如何获取代理IP地址如何获取...原创 2020-04-25 20:03:16 · 240 阅读 · 0 评论 -
爬虫 Task 2
2.1.1 Beautiful Soup库的基本元素Beautiful Soup库的理解:Beautiful Soup库是解析、遍历、维护“标签树”的功能库,对应一个HTML/XML文档的全部内容BeautifulSoup类的基本元素:Tag 标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾;Name 标签的名字,<p>…<...原创 2020-04-23 16:00:29 · 238 阅读 · 0 评论 -
爬虫TASK1
HTTP的请求方法有很多种,主要包括以下几个:GET:向指定的资源发出“显示”请求。GET方法应该只用于读取数据,而不应当被用于“副作用”的操作中(例如在Web Application中)。其中一个原因是GET可能会被网络蜘蛛等随意访问。HEAD:与GET方法一样,都是向服务器发出直顶资源的请求,只不过服务器将不会出传回资源的内容部分。它的好处在于,使用这个方法可以在不必传输内容的情况下,将获...原创 2020-04-21 12:56:15 · 189 阅读 · 0 评论