- 博客(7)
- 收藏
- 关注
转载 CSS选择器
select方法: 使用以上方法可以方便的找出元素。但有时候使用CSS选择器的语法可以更加的方便。使用CSS语法,应该使用select方法。以下列出几种常用的CSS选择器方法: (1)通过标签名查找 print(soup.select('a')) (2)通过类名查找 通过类名,则应该在类的前面加一个 . 。比如要查找 classsister 的标签: print(soup.select('....
2019-05-30 08:58:55
130
转载 xpath简介以及工具安装
Xpath语法和lxml模块 什么是 Xpath xpath( XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 Xpath开发工具 Chromey插件 Xpath Helper Firefox插件 Xpath Checker。 Xpath语法详解 谓语: 谓语用来查找某个特定的节点或者包含某个指定的值的节点,...
2019-05-29 10:11:11
430
转载 requests
response.text和response.content的区别: 1、response.content:这个是直接从网络上抓取的数据。没有经过任何解码。所以是一个bytes类型。其实硬盘上和在网络上传输的字符串都是bytes类型。 2、response.text:这个是str的数据类型。是requests库将response.content进行解码的字符串。解码需要指定一个编码方式,reque...
2019-05-28 21:32:39
161
转载 爬虫自动登录访同授权页面
http.cookiejar模块 该模块主要的类有 Cookiejar,、 Filecookiejar、 MozillaCooklejar、 LwpCookiejar。这四个的作用分别如下 1.CookieJar:管理HTTPcookie值、存储HTTP请求生成的cookie、向传出的HTTP请求加cookies的对象,整个cookie都存储在内存中,对 Cooklejar实例进行垃圾回收后coo...
2019-05-28 19:26:22
275
转载 爬虫使用cookie模拟登陆
使用cooklelib库和Httpcookieprocessora模拟登录 Cookie是指网站服务器为了辨别用户身份和进行 Session跟踪,而储存在用户浏览器的文本文件, Cookie可以保持登录信息到用户下次与服务器的会话。 这里以人人网为例。人人网中,要访回某个人的主页,必须先登录才能访问,登录说白了就是要有cookie信息。那么如果我们想要用 代码的方式访问,就必须要有正确的cooki...
2019-05-28 16:45:30
318
转载 urllib库
urllib库是python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 **urlopen函数:** 在python3的urllib库中,所有和网络请求相关的方法,都被收集到**urllib.request**模块下了。 from urllib import request resp = request.urlopen("...
2019-05-28 09:54:09
107
转载 1、HTTP协议和Chrome浏览器
1、HTTP:超文本传输协议,是一种发布和接收html页面的方法,服务器端口号是80端口; HTTPS:HTTP协议的加密版本,在HTTP下加入了SSL层。端口号是 443 端口。 2、URL:统一资源定位符。有以下几部分组成: scheme://host:port/path/?query-string=xxx#anchor scheme:代表的是访问协议,一般为HTTP或者HTTPS以及ftp等...
2019-05-14 10:16:52
668
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人