![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
韩绘锦
苟有恒何必三更灯火五更鸡,最无益莫过一日曝十日寒。
展开
-
ip代理
为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如何应对IP被封的问题有几种套路:修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔如何获取代理IP地址从该网站获取: https://www.xicidaili.com/inspect -> 鼠标定位:...原创 2020-04-25 23:44:21 · 26766 阅读 · 0 评论 -
Task 02 re(2.3)
2.3 学习正则表达式 re2.3.1 为什么使用正则表达式?典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。通过使用正则表达式,可以:- 测试字符串内的模式。 例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信...原创 2020-04-25 00:30:22 · 1109 阅读 · 0 评论 -
Task 02 Xpath(2.2)
2.2 学习xpath2.2.1 学习目标:学习xpath,使用lxml+xpath提取内容。使用xpath提取丁香园论坛的回复内容。抓取丁香园网页:http://www.dxy.cn/bbs/thread/626626#626626 。2.2.2 Xpath常用的路径表达式:XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文...原创 2020-04-24 13:15:37 · 204 阅读 · 0 评论 -
Task 02 bs4 Beautiful Soup库入门(2.1)
二、学习内容2.1 Beautiful Soup库入门学习beautifulsoup基础知识。使用beautifulsoup解析HTML页面。Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。B...原创 2020-04-24 10:26:32 · 116 阅读 · 0 评论 -
Task 02 bs4 Beautiful Soup库入门(2.1)
二、学习内容2.1 Beautiful Soup库入门学习beautifulsoup基础知识。使用beautifulsoup解析HTML页面。Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Beauti...原创 2020-04-23 23:30:18 · 143 阅读 · 0 评论 -
爬虫~爬爬爬~task1
互联网、HTTP互联网互联网也叫因特网(Internet),是指网络与网络所串联成的庞大网络,这些网络以一组标准的网络协议族相连,连接全世界几十亿个设备,形成逻辑上的单一巨大国际网络。它由从地方到全球范围内几百万个私人的、学术界的、企业的和政府的网络所构成。通过电子、无线和光纤等一系列广泛的技术来实现。这种将计算机网络互相连接在一起的方法可称作“网络互联”,在此基础上发展出来的覆盖全世界的全球...原创 2020-04-21 19:08:20 · 3258 阅读 · 0 评论