- 博客(8)
- 收藏
- 关注
原创 [python3.6]爬虫实战之爬取淘女郎图片
原博主地址:http://cuiqingcai.com/1001.html原博是python2.7写的,并且随着淘宝代码的改版,原博爬虫已经不可用。参考 http://minstrel.top/TaoBaoMM 这位博主跟我一样最近正在学习爬虫。1 定个小目标lcw先生听说我即将爬取美女的照片,两眼都亮了。没错,我要给他福利了(其实女生也很喜欢美女)。所以,定个最小的目
2017-10-28 17:28:47 3253
原创 [python3]爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件
2017-10-26 16:41:46 1061
原创 [python3]爬虫实战一之爬取糗事百科段子
本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数。糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子吧。好,现在我们尝试抓取一下糗事百科的热门段子吧,每按下一次回车我们显示一个段子。
2017-10-25 21:06:44 1601
原创 [Python3]爬虫入门之正则表达式
强烈推荐https://regexr.com/该网站。使用该网站,查看表达式每一项是什么意思。很快就可以掌握正则了!!!从来没觉得正则是如此的简单!好了。
2017-10-25 18:42:06 418
原创 [Python]网络爬虫(三):使用cookiejar管理cookie 以及 模拟登录知乎
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用库保存我们登录的Cookie,然后再抓取其
2017-10-25 11:18:09 24909 2
转载 referer盗链与反盗链
我们还有对付”反盗链”的方式,对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应,所以我们还可以在headers中加入referer例如我们可以构建下面的headers12
2017-10-25 10:30:57 859
原创 [Python]网络爬虫(二):利用urllib通过指定的URL抓取网页内容
1.基本方法urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)- url: 需要打开的网址- data:Post提交的数据- time
2017-10-24 21:14:50 2466
转载 [Python]网络爬虫(一):抓取网页的含义和URL基本构成
重点:URL, URI.可以通过url明确的知道是http协议还是file协议等,资源在什么服务器上,资源所在文件目录。一、网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读
2017-10-24 18:28:37 464
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人