自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 [python3.6]爬虫实战之爬取淘女郎图片

原博主地址:http://cuiqingcai.com/1001.html原博是python2.7写的,并且随着淘宝代码的改版,原博爬虫已经不可用。参考 http://minstrel.top/TaoBaoMM 这位博主跟我一样最近正在学习爬虫。1 定个小目标lcw先生听说我即将爬取美女的照片,两眼都亮了。没错,我要给他福利了(其实女生也很喜欢美女)。所以,定个最小的目

2017-10-28 17:28:47 3253

原创 [python3]爬虫实战二之爬取百度贴吧帖子

大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件

2017-10-26 16:41:46 1061

原创 [python3]爬虫实战一之爬取糗事百科段子

本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数。糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子吧。好,现在我们尝试抓取一下糗事百科的热门段子吧,每按下一次回车我们显示一个段子。

2017-10-25 21:06:44 1601

原创 [Python3]爬虫入门之正则表达式

强烈推荐https://regexr.com/该网站。使用该网站,查看表达式每一项是什么意思。很快就可以掌握正则了!!!从来没觉得正则是如此的简单!好了。

2017-10-25 18:42:06 418

原创 [Python]网络爬虫(三):使用cookiejar管理cookie 以及 模拟登录知乎

大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用库保存我们登录的Cookie,然后再抓取其

2017-10-25 11:18:09 24909 2

转载 referer盗链与反盗链

我们还有对付”反盗链”的方式,对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应,所以我们还可以在headers中加入referer例如我们可以构建下面的headers12

2017-10-25 10:30:57 859

原创 [Python]网络爬虫(二):利用urllib通过指定的URL抓取网页内容

1.基本方法urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)-         url:  需要打开的网址-         data:Post提交的数据-         time

2017-10-24 21:14:50 2466

转载 [Python]网络爬虫(一):抓取网页的含义和URL基本构成

重点:URL, URI.可以通过url明确的知道是http协议还是file协议等,资源在什么服务器上,资源所在文件目录。一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读

2017-10-24 18:28:37 464

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除