Allenasan-CSDN博客

原创数据提取方法-多进程多线程爬虫

爬取页面的URL是：http://www.qiushibaike.com/8hr/page/1思路分析：确定url地址url地址的规律非常明显，一共只有13页url地址确定数据的位置数据都在id='content-left’的div下的div中，在这个区域，url地址对应的响应和elements相同上述代码改写成多线程方式实现2.1 回顾多线程的方法使用在python3中，主线程主进程结束，子线程，子进程不会结束为了能够让主线程回收子线程，可以把子线程设置为守护线程,即该线程.

2020-11-16 22:24:29 214

原创数据提取方法-线程池实现更快的爬虫

线程池使用方法介绍实例化线程池对象 from multiprocessing.dummy import Pool pool = Pool(process=5) #默认大小是cup的个数把从发送请求，提取数据，到保存合并成一个函数，交给线程池异步执行使用方法pool.apply_async(func) def exetute_requests_item_save(self): url = self.queue.get() html_str = self.parse_url.

2020-11-16 22:23:30 123

原创数据提取方法-lxml模块

lxml的认识在前面学习了xpath的语法，那么在代码中我们如何使用xpath呢，对应的我们需要lxml安装方式：pip install lxmllxml的使用2.1 lxml模块的入门使用导入lxml 的 etree 库 (导入没有提示不代表不能用) from lxml import etree`利用etree.HTML，将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表，能够接受bytes类型的数据和str类型的数据html = etree.

2020-11-15 21:23:31 258

原创数据提取方法-xpath和lxml类库

为什么要学习xpath和lxmllxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息什么是xpathXPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。W3School官方文档：http://www.w3school.com.cn/xpath/index.asp认识xml知识点：html和xml的区别..

2020-11-15 21:16:15 142

原创数据提取方法-数据提取之正则

什么是正则表达式用事先定义好的一些特定字符、及这些特定字符的组合，组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。正则表达式的常见语法知识点正则中的字符正则中的预定义字符集正则中的数量词正则的语法很多，不能够全部复习，对于其他的语法，可以临时查阅资料，比如:表示或还能使用|re模块的常见方法pattern.match（从头找一个）pattern.search（找一个）pattern.findall（找所有）返回一个列表，没有就是空列表r..

2020-11-15 21:00:13 187

原创数据提取方法-数据提取之json

1.为什么要使用json由于把json数据转化为python内建数据类型很简单，所以爬虫中，如果我们能够找到返回json数据的URL，就会尽量使用这种URL，而很多地方也都会返回json什么是jsonJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。3.哪里能找到返回json的url下面以热映电影为例，来了解那里能够找到返回j

2020-11-15 20:56:15 967

原创数据提取方法-数据提取的概念和数据的分类

什么是数据提取简单的来说，数据提取就是从响应中获取我们想要的数据的过程爬虫中数据的分类结构化数据：json，xml等处理方式：直接转化为python类型非结构化数据：HTML处理方式：正则表达式、xpath下面以某网站首页为例，介绍结构化数据和非结构化数据结构化数据例子：非结构化数据：XML数据：<bookstore><book category="COOKING"> <title lang="en">Everyday It..

2020-11-15 20:51:22 1722

原创 chrome浏览器使用方法介绍

目标掌握chrome在爬虫中的使用：）新建隐身窗口1.1 为什么需要新建隐身窗口在打开隐身窗口的时候，第一次请求某个网站是没有携带cookie的，和代码请求一个网站一样，不携带cookie。这样就能够尽可能的理解代码请求某个网站的结果；除非数据是通过js加载出来的，不然爬虫请求到的数据和浏览器请求的数据大部分时候都是相同的chrome中network的更多功能2.1 Perserve log默认情况下，页面发生跳转之后，之前的请求url地址等信息都会消失，勾选perserve l

2020-11-15 20:32:02 225

原创 requests模块的其他方法

目标掌握requests模块获取cookie的方法掌握requests模块ssl证书错误的处理方法掌握超时参数的使用掌握retrying模块的使用requests模块获取cookierequests.utils.dict_from_cookiejar:把cookiejar对象转化为字典import requestsurl = "http://www.baidu.com"response = requests.get(url)print(type(response.cookies))

2020-11-15 20:28:58 89

翻译 requests模块处理cookie相关的请求

1 使用requests处理cookie相关的请求1.1 回顾cookie和session的区别cookie数据存放在客户的浏览器上，session数据放在服务器上。cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗。session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能。单个cookie保存的数据不能超过4K，很多浏览器都限制一个站点最多保存20个cookie。1.2 爬虫中为什么要使用cookie带上cookie的好处能够访问登录

2020-11-15 20:23:31 770

原创 requests模块的深入使用

目标掌握requests发送post请求的方法掌握requests模块使用打理的方法了解代理ip池的内涵1.requests模块发送POST请求1.1 哪些地方我们会用到POST请求：登录注册（ POST 比 GET 更安全）需要传输大文本内容的时候（ POST 请求对数据长度没有要求）所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求1.2 使用requests模块发送post请求用法： response = requests.post(“http://www.ba

2020-11-15 20:12:31 82

原创 requests模块的入门使用

requests模块的入门使用目标掌握requests发送请求的方法掌握response对象的基础属性掌握requests发送带headers的请求掌握requests模块发送带参数请求为什么要重点学习requests模块，而不是urllibrequests的底层实现就是urllibrequests在python2 和python3中通用，方法完全一样requests简单易用Requests能够自动帮助我们解压(gzip压缩的等)网页内容2.requests的作用作用：发送网络

2020-11-15 20:08:18 98

原创 jquery/jquery样式操作/绑定click事件/jquery动画

jquery选择器jquery用法思想一选择某个网页元素，然后对它进行某种操作jquery选择器jquery选择器可以快速地选择元素，选择规则和css样式相同，使用length属性判断是否选择成功。$('#myId') //选择id为myId的网页元素$('.myClass') // 选择class为myClass的元素$('li') //选择所有的li元素$('#ul1 li s...

2019-04-28 07:42:21 583

原创 django配置文件/静态文件/路由说明/App应用配置

配置文件BASE_DIRBASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(file)))当前工程的根目录，Django会依此来定位工程内的相关文件，我们也可以使用该参数来构造文件路径。DEBUG调试模式，创建工程后初始值为True，即默认工作在调试模式下。作用：修改代码文件，程序自动重启Django程...

2019-04-28 00:07:59 251

原创 django响应

响应视图在接收请求并处理后，必须返回HttpResponse对象或子对象。HttpRequest对象由Django创建，HttpResponse对象由开发人员创建。1 HttpResponse可以使用django.http.HttpResponse来构造响应对象。Response(content=响应体, content_type=响应体数据类型, status=状态码)也可通过Http...

2019-04-28 00:00:37 182

原创 django中请求的6种方法

请求回想一下，利用HTTP协议向服务器传参有几种途径？提取URL的特定部分，如/weather/beijing/2018，可以在服务器端的路由中用正则表达式截取；查询字符串（query string)，形如key1=value1&key2=value2；请求体（body）中发送的数据，比如表单数据、json、xml；在http报文的头（header）中。1 URL路径参数在定...

2019-04-27 23:57:03 2586

zhao_04639的博客