解析库之lxml
解析库之lxml
WoLykos
这个作者很懒,什么都没留下…
展开
-
Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下“CSDN热门文章的抓取”。 话不多说,让我们直接进入CSND官网。 (其实是因为我被阿里的反爬磨到没脾气,不想说话……) 一、URL分析 输入“Python”并点击搜索: 便得到了所有关于“Python”的热门博客,包括 [ 标题,网址、阅读数 ] 等等,我们的任务,就是爬取这些博客。 分析一下上图中曲线处的URL,不难发现:p为页数,q为关键字。 注意: 我们一...原创 2019-12-24 20:57:20 · 3313 阅读 · 4 评论 -
Python爬虫实战——反爬策略之模拟登录【CSDN】
在《Python爬虫实战—— Request对象之header伪装策略》中,我们就已经讲到:“在header当中,我们经常会添加两个参数——cookie 和 User-Agent,来模拟浏览器登录,以此提高绕过后台服务器反爬策略的可能性。” User-Agent已经讲过,这篇我们则主要讲cookie的使用案例。 通俗地讲:User-Agent的作用是模拟浏览器,cookie的作用是模拟登陆,所以...原创 2019-12-23 20:38:49 · 1961 阅读 · 0 评论 -
Python爬虫基础——XPath语法的学习与lxml模块的使用【CSDN】
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂; XPath:语法简单,可以满足绝大部分的需求; 所以,如果你可以根据自己的需要进行选择。 一、首先,我们需要为Google浏览器配置XPath插件: 请自行学习,效果如下: 二、XPath的语法: 注意: XPath的索引从1开始。 三、XPath的案例: 一级分类: //h3[@class="c...原创 2019-12-26 14:03:09 · 1134 阅读 · 0 评论