![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python 爬虫
zhangbijun1230
这个作者很懒,什么都没留下…
展开
-
Python 爬虫---(4) 正则的基本使用
什么是正则表达式正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块python正则的详细讲解常用的匹配模式\w 匹配字母数字及下划线\W 匹配f非字母数字下划线\s 匹...转载 2018-03-23 11:49:59 · 328 阅读 · 0 评论 -
Python 爬虫---(6) beautifulSoup 库的使用
其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。beautifulSoup “美味的汤,绿色的浓汤”一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取快速使用通过下面的一个例子,对bs4有个简单的了解,以及看一下它的强大之处:from ...转载 2018-03-23 11:52:24 · 310 阅读 · 0 评论 -
Python 爬虫---(7) Python3网络爬虫快速入门实战解析
转载请注明作者和出处: http://blog.csdn.net/c406495762 Github代码获取:https://github.com/Jack-Cherish/python-spider Python版本: Python3.x 运行平台: Windows IDE: Sublime text3 PS:本文为Gitchat线上分享文章,该文章发布时间为2017年09月19日。活动地址: ...转载 2018-03-24 12:26:51 · 656 阅读 · 0 评论 -
Python爬虫 ---(1)爬虫基础知识
引言网络爬虫是抓取互联网信息的利器,成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括:1.分布式爬虫框架:Nutch2.Java单机爬虫框架:Crawler4j, WebMagic, WebCollector、Heritrix3.python单机爬虫框架:scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架,上手难度高,开发复杂,基本...转载 2018-03-22 09:18:23 · 537 阅读 · 0 评论 -
python爬虫---(2)爬虫基本流程
何谓爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据爬虫可以做什么?你可以爬去妹子的图片,爬取自己想看看的视频。。等等你想要爬取的数据,只要你能通过浏览器访问的数...转载 2018-03-22 09:41:50 · 475 阅读 · 0 评论 -
Python 爬虫---(3)Urllib库使用介绍
1.Urllib库使用详解Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.request.urlopen参数的介绍:urllib.request.urlopen(url, da...转载 2018-03-22 10:08:31 · 346 阅读 · 0 评论 -
Python 爬虫---(5)Requests库的使用
什么是RequestsRequests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实...转载 2018-03-22 11:11:13 · 405 阅读 · 0 评论