![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
在下平兄
这个作者很懒,什么都没留下…
展开
-
爬虫基本概念
爬虫的概念爬虫就是:模拟浏览器发送网络数据,获取请求响应爬虫的流程url—>发送请求,获取响应—>提取数据—>保存获取响应—>提取url地址,继续请求浏览器的请求过程浏览器获取数据包含:url地址对应的响应+js+css+jpg爬虫会获取:url地址对应的响应爬虫获取的内容和elements内容不一样,进行数据提取的时候,需要根据url地址对应的响应为准u...原创 2019-06-25 18:39:14 · 341 阅读 · 0 评论 -
数据提取值json
目标理解json的概念了解爬虫中json出现的位置掌握json相关的方法1. json可用于结构化数据的提取由于把json数据转化为培养他虹内建数据类型很简单,所以爬虫中,如果我们能找到返回json数据的url,就会尽量使用这种url,而很多地方也都会返回json2. 什么时jsonJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使...原创 2019-06-30 20:14:58 · 448 阅读 · 0 评论 -
常见的反爬手段
目标了解常用的反爬手段和解决思路1.明确反反爬的主要思路反反爬的主要思路就是:尽可能地去模拟浏览器,浏览器咋如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求url2带上了之前的cookie,代码中也可以这样去实现。很多时候,爬虫中携带 headers 字段, cookie字段, url参数,post的参数很多,不清楚那些有用那些没用的情况下,...原创 2019-07-05 15:50:53 · 456 阅读 · 0 评论 -
实现多线程爬虫
1.单线程爬取糗百知道共有多少页 获取url列表import requestsfrom lxml import etreeclass QiubaiSpider: def __init__(self): self.url_temp = "https://www.qiushibaike.com/8hr/page/{}/" self.headers...原创 2019-07-05 09:07:52 · 164 阅读 · 0 评论 -
requests模块处理cookie相关的请求
目标掌握requests处理cookie的三种方法掌握分析js的方法1 requests处理cookie相关的请求1.1 回顾cookie和session的区别cookie数据存放在客户的浏览器上,session数据放在服务器上coolie不是安全的,别人可以分析放在本地的cookie并进行cookie欺骗session会在一定时间内保存在服务器上,当访问增多,会比较占用你服务...原创 2019-06-29 08:01:16 · 561 阅读 · 0 评论 -
request模块的深入使用
目标掌握requests发送post请求的方法掌握requests模块使用代理的方法了解dialingip池的内涵1.requests模块发送post请求1.1 那些地方我们会用到post请求:登录注册(post 比 get 更安全)需要传输大文本内容的时候(post 请求对数据长度没有要求)所以同样的,我们爬虫也需要在这两个地方模拟浏览器发送post请求1.2 使用re...原创 2019-06-28 18:40:37 · 166 阅读 · 0 评论 -
数据提取之 lxml
1.什么是lxmllxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。如果要在代码中使用xpath,就需要学习lxml模块2.lxml模块的使用2.1 lxml模块入门1.导入lxml 的 etree 库(导入没有提示不代表不能用)from lxml import etree2.利用etree.HTML 将字符串转化为Element对...原创 2019-07-02 14:31:17 · 1389 阅读 · 0 评论 -
request模块的基本使用
目标掌握requests发送请求的方法掌握requests对象的基础属性掌握requests发送带headers的请求掌握requests模块发送带参数请求1. requests模块发送简单请求 获取响应需求:通过requests向百度首页发送请求,获取百度首页数据response = requests.get("https://www.baidu.com/")respons...原创 2019-06-26 19:44:13 · 4082 阅读 · 0 评论 -
数据提取之 XPath
1.什么是XPath?XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。2.选取节点XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。下面列出了最常用的路径表达式://a/text()获取所有的a下...原创 2019-07-02 08:56:23 · 132 阅读 · 0 评论 -
爬虫练习
1. 爬取果壳热门问答标准写法格式import requestsimport reclass Spider: def __init__(self): self.url_temp = "https://www.guokr.com/ask/hottest/?page={}" self.headers = { "User-Age...原创 2019-07-01 18:21:31 · 134 阅读 · 0 评论 -
selenium测试工具实现爬虫
什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。...原创 2019-07-06 10:16:52 · 278 阅读 · 1 评论