![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python网络爬虫学习笔记
zh_victory
C#学习中......
展开
-
爬虫数据提取(第三章):xpath-lxml基本使用,解析html代码和html文件
# --coding:utf-8--from lxml import etreestr = r'''<html><head><title>测试</title></head><body><div> <ul><li id="1">1111111</li><li id="2">2222222</li> <li id="3"&.原创 2021-03-06 21:11:00 · 228 阅读 · 0 评论 -
爬虫数据提取(第三章)-xpath 语法
1、教程:https://www.w3school.com.cn/xpath/index.asp2、安装: 可以科学上网的,直接到Chrome网上应用店安装即可。 不能科学上网的,需要下载xpath helper,然后拖拽到Chrome浏览器中即可安装成功。...原创 2021-03-06 20:58:03 · 75 阅读 · 0 评论 -
Python网络爬虫(第二章:爬虫基本库的使用)- 保存cookie到本地,加载本地cookie
只是简单的使用,直接贴代码:# --coding:utf-8--from urllib import requestfrom http.cookiejar import MozillaCookieJarfrom urllib import parse# 保存cookie到本地cookieJar1 = MozillaCookieJar('cookie.txt')handler1 = request.HTTPCookieProcessor(cookieJar1)opener1 = requ原创 2021-03-05 10:34:45 · 167 阅读 · 1 评论 -
Python网络爬虫(第二章:爬虫基本库的使用)- 使用CookJar模拟登录
Q: 什么是CookJar?A: 1、CookJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。【http.cookiejar库中的CookieJar】 2、CookieJar类有一些子类,分别是FileCookieJar,MozillaCookieJar,LWPCookieJar。 FileCookieJar (...原创 2021-03-05 09:42:27 · 202 阅读 · 2 评论 -
Python网络爬虫(第二章:爬虫基本库的使用)-ProxyHander代理
Q:何为代理A:如下图(仅作为说明图,不喜勿喷):Q:为什么要使用代理?A:服务器会识别爬虫,为了防止被访问的服务器禁止爬虫,中间使用代理服务器是一种有效的方法(之一)。Q:Python如何实现代理?A:方法很多,这里只介绍urllib库的ProxyHandler()【因为简单,确可以说明代理的原理】,代码如下:# --coding:utf-8--from urllib import requestfrom urllib import parseurl = 'http:原创 2021-03-04 23:25:50 · 1091 阅读 · 2 评论 -
Python网络爬虫学习笔记 - 第二章 - ProxyHandler代理设置
我们在使用爬虫的过程中,经常会碰到这样的问题:刚开始启动爬虫,爬虫可正常运行,且可以正常的爬取网页数据。但是过一会后,爬虫无法正常获取网页数据。那么这是什么原因呢?进一步debugger代码,发现爬虫在请求网址的时候报错,分析后发现是网页服务器禁止了爬虫的请求(可能会返回,403:Forbidden)。出现这样的情况,就说明了承载爬虫的IP,访问网页服务器在单位时间内访问的请求次数超出了一定的阈值,服务器根据此信息,将次访问识别为爬虫,进而禁止该IP的再次访问。那么如何解决此问题呢,Proxy(原创 2021-03-04 23:04:24 · 310 阅读 · 1 评论