![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫从入门学习到放弃
隐藏玩家
这个作者很懒,什么都没留下…
展开
-
基本模块
使用urllib爬取网页1.导入对应的模块import urllib.request2.使用urllib.request.urlopen()打开并爬取一个网页,此时将打开后的网页赋值给file.file = urllib.request.urlopen('www.XXXX')读取内容常见的有3种方式,其用法是:file.read()读取文件的全部内容,与readline不同的是,r...原创 2019-04-16 09:44:26 · 163 阅读 · 0 评论 -
pyquery解析库
前言beautiful Soup是一个强大的网页解析库,但他的CSS选择器功能并不是那么的强大。相比于此pyquery具有更加强大的功能。1.初始化可以直接传入字符串,URL,传入文件名。字符串初始化html = '''<div><ul><li class="item-0">first item</li><li class...原创 2019-05-06 20:25:25 · 232 阅读 · 0 评论 -
使用Beautiful-Soup
前面介绍了正则表达式的相关用法,但是一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了,而且对于一个网页来说都有一定的特殊的结构和层级关系,而且很多节点都有id或class来做区分,所以我们就可以通过他们的结构和属性来提取。解析工具beautiful Soup在《python网络数据采集》一书中的第一章节介绍的表示BeautifulSoup。一下是引用书中的开篇语。Beautiful...原创 2019-05-05 16:45:57 · 261 阅读 · 0 评论 -
解析库的使用
使用XPathXPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜索XML文档的,但是他同样适用于HTML文档的搜索。XPath概览XPath的选择功能十分的强大,他提供了非常简明了的路径选择表达式。另外,它还提供了超过100个内建函数,用于字符串,数值,时间的匹配以及节点,序列的处理等,几乎所有我们想要定位的节点,都可以...原创 2019-04-29 13:32:43 · 189 阅读 · 0 评论 -
py3-正则表达式
正则表达式正则表达式测试工具:http://tool.oschina.net/regex/。匹配目标刚才我们用match()方法可以匹配得到字符串内容,但是如果想从字符串中提取一部分内容,该怎么办呢,就像是最前面的实例一样。这里可以使用()括号将想要会依次对应的每一个分组,调用group()方法将分组的索引即可获取提取的结果。import recontent = 'Hello 123...原创 2019-04-28 23:17:15 · 320 阅读 · 0 评论 -
requests模块
使用requests了解了urllib的基本用法,但是其中确实又不方便的地方,比如在处理网页验证和cooki时,需要写Opener和Hander来处理器,而reuqests方法对于解决Cookies,登录操作,代理设置等操作有很大的帮助。基本用法实例引入urllib库中的urlopen()方法实际上是以GET方式请求网页,而requests中相应的方法就是get()方法。import r...原创 2019-04-28 08:13:50 · 920 阅读 · 0 评论 -
读-《精通正则表达式》
为什么写这篇文章刚学完python就像找点事做,相到以后的自己打算的方向就准备从爬虫开始学习,爬虫前面学的好好,但越到后面遇到的正则表达式越看不懂,相比那些函数,这个让人难以琢磨,与其一直带着这种异或我打算在学爬虫之余好好的学习一下正则表达式,因此我们选择了这本书。我将记录我的学习笔记,下面就开始学习之路。元字符:行的起始和结束“^”和“$”可以认为是最好理解的元字符了," ^ "代表的...原创 2019-04-17 21:04:52 · 270 阅读 · 0 评论 -
python3爬虫到实战
详细介绍:urlopen函数的API:urllib.request.urlopen(url, data=None,[timeout, ]*,cafile = None, capath = None, cadefault = False,context = None)可以看到第一个数据是URL,其中data表示附加数据,timeout表示(超时时间)。data 参数data参数使可选择的,...原创 2019-04-25 21:39:16 · 424 阅读 · 0 评论 -
手写爬虫-python
常用的python的网络爬虫,包括图片爬虫,链接爬虫,微信爬虫,多线程爬虫。图片爬虫实战将京东手机类中关于s10的图片爬取到本地文件中。步骤:(1) 建立一个爬取图片的自定义和拿书,该函数负责爬取一个页面下我们想爬取的图片,爬取过程为:首项通过urllib.request.urlopen(url).open读取对应网页的全部源代码,然后根据上面的第一个正则表达式进行第一次信息过滤,过滤完...原创 2019-04-16 18:08:37 · 334 阅读 · 2 评论 -
正则表达式
有时我们在进行字符串处理的时候想让他们按照自定义规则去处理,我们将这些规则称为:模式。我们可以用正则表达式来描述这些规则,正则表达式也称为模式表达式。什么是正则表达式简单来说,正则表达式就是描述字符串排列的一套规则。在实际的项目中也经常的使用。pytohn中译本使用re模块实现正则表达式的功能。正则表达式1.原子原子是正则表达式中最基本的组成单位,每一个正则表达式中至少要包含一个原子...原创 2019-04-11 21:04:28 · 167 阅读 · 0 评论 -
动态渲染页面爬取
所谓动态渲染页面爬取,就是模拟浏览器的运行方式,这样就可以做到在浏览器中看到是什么样,爬取的源码就是什么样,也就是可见即可爬。Selenium的使用selenium 是一个自动化测试工具,利用它就可以驱动浏览器执行特定的动作,如点击,下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,对于一些JavaScript动态渲染的页面来说,此种爬取方式非常的有效。...原创 2019-05-10 17:42:19 · 1291 阅读 · 1 评论