小欢喜11-CSDN博客

转载 CSS选择器

select方法：使用以上方法可以方便的找出元素。但有时候使用CSS选择器的语法可以更加的方便。使用CSS语法，应该使用select方法。以下列出几种常用的CSS选择器方法：（1）通过标签名查找 print(soup.select('a')) （2）通过类名查找通过类名，则应该在类的前面加一个 . 。比如要查找 classsister 的标签： print(soup.select('....

2019-05-30 08:58:55 177

Xpath语法和lxml模块什么是 Xpath xpath( XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 Xpath开发工具 Chromey插件 Xpath Helper Firefox插件 Xpath Checker。 Xpath语法详解谓语: 谓语用来查找某个特定的节点或者包含某个指定的值的节点,...

2019-05-29 10:11:11 457

转载 requests

response.text和response.content的区别： 1、response.content:这个是直接从网络上抓取的数据。没有经过任何解码。所以是一个bytes类型。其实硬盘上和在网络上传输的字符串都是bytes类型。 2、response.text：这个是str的数据类型。是requests库将response.content进行解码的字符串。解码需要指定一个编码方式，reque...

2019-05-28 21:32:39 189

转载爬虫自动登录访同授权页面

http.cookiejar模块该模块主要的类有 Cookiejar,、 Filecookiejar、 MozillaCooklejar、 LwpCookiejar。这四个的作用分别如下 1.CookieJar:管理HTTPcookie值、存储HTTP请求生成的cookie、向传出的HTTP请求加cookies的对象,整个cookie都存储在内存中,对 Cooklejar实例进行垃圾回收后coo...

2019-05-28 19:26:22 335

转载爬虫使用cookie模拟登陆

使用cooklelib库和Httpcookieprocessora模拟登录 Cookie是指网站服务器为了辨别用户身份和进行 Session跟踪,而储存在用户浏览器的文本文件, Cookie可以保持登录信息到用户下次与服务器的会话。这里以人人网为例。人人网中,要访回某个人的主页,必须先登录才能访问,登录说白了就是要有cookie信息。那么如果我们想要用代码的方式访问,就必须要有正确的cooki...

2019-05-28 16:45:30 350

转载 urllib库

urllib库是python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。 **urlopen函数：** 在python3的urllib库中，所有和网络请求相关的方法，都被收集到**urllib.request**模块下了。 from urllib import request resp = request.urlopen("...

2019-05-28 09:54:09 129

转载 1、HTTP协议和Chrome浏览器

1、HTTP：超文本传输协议，是一种发布和接收html页面的方法，服务器端口号是80端口； HTTPS：HTTP协议的加密版本，在HTTP下加入了SSL层。端口号是 443 端口。 2、URL：统一资源定位符。有以下几部分组成： scheme://host:port/path/?query-string=xxx#anchor scheme:代表的是访问协议，一般为HTTP或者HTTPS以及ftp等...

2019-05-14 10:16:52 739

zxcvbnmlpzc的博客