2017年10月_haliofwu

原创 [python3.6]爬虫实战之爬取淘女郎图片

原博主地址：http://cuiqingcai.com/1001.html原博是python2.7写的，并且随着淘宝代码的改版，原博爬虫已经不可用。参考 http://minstrel.top/TaoBaoMM 这位博主跟我一样最近正在学习爬虫。1 定个小目标lcw先生听说我即将爬取美女的照片，两眼都亮了。没错，我要给他福利了（其实女生也很喜欢美女）。所以，定个最小的目

2017-10-28 17:28:47 3253

原创 [python3]爬虫实战二之爬取百度贴吧帖子

大家好，上次我们实验了爬取了糗事百科的段子，那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是，这次我们需要用到文件的相关操作。本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件

2017-10-26 16:41:46 1061

原创 [python3]爬虫实战一之爬取糗事百科段子

本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现每按一次回车显示一个段子的发布时间，发布人，段子内容，点赞数。糗事百科是不需要登录的，所以也没必要用到Cookie，另外糗事百科有的段子是附图的，我们把图抓下来图片不便于显示，那么我们就尝试过滤掉有图的段子吧。好，现在我们尝试抓取一下糗事百科的热门段子吧，每按下一次回车我们显示一个段子。

2017-10-25 21:06:44 1601

原创 [Python3]爬虫入门之正则表达式

强烈推荐https://regexr.com/该网站。使用该网站，查看表达式每一项是什么意思。很快就可以掌握正则了！！！从来没觉得正则是如此的简单！好了。

2017-10-25 18:42:06 418

原创 [Python]网络爬虫（三）：使用cookiejar管理cookie 以及模拟登录知乎

大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用库保存我们登录的Cookie，然后再抓取其

2017-10-25 11:18:09 24909 2

转载 referer盗链与反盗链

我们还有对付”反盗链”的方式，对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应，所以我们还可以在headers中加入referer例如我们可以构建下面的headers12

2017-10-25 10:30:57 859

原创 [Python]网络爬虫（二）：利用urllib通过指定的URL抓取网页内容

1.基本方法urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)- url: 需要打开的网址- data：Post提交的数据- time

2017-10-24 21:14:50 2466

转载 [Python]网络爬虫（一）：抓取网页的含义和URL基本构成

重点：URL, URI.可以通过url明确的知道是http协议还是file协议等，资源在什么服务器上，资源所在文件目录。一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读

2017-10-24 18:28:37 464

haliofwu的专栏