自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Python中通过多个字符分割(split)字符串的方法

python中字符串自带的split方法一次只能使用一个字符对字符串进行分割,但是python的正则模块则可以实现多个字符分割import re re.split('_#|','this_is#a|test')返回的是一个列表(list),输出结果如下:[&...

2015-09-08 21:47:02

阅读数 57081

评论数 7

原创 Python爬虫教程——实战二三四五

后面几个实战暂时不看了,备注一下吧Python爬虫实战二之爬取百度贴吧帖子Python爬虫实战三之计算大学本学期绩点Python爬虫实战四之抓取淘宝MM照片Python爬虫实战五之模拟登录淘宝并获取所有订单

2015-09-05 02:18:36

阅读数 1189

评论数 0

转载 Python爬虫教程——实战一之爬取糗事百科段子

大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用...

2015-09-05 02:13:59

阅读数 1796

评论数 0

转载 Python爬虫教程——进阶一之爬虫框架Scrapy安装配置

初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。Windows 平台:我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。官...

2015-09-05 01:53:04

阅读数 1284

评论数 1

转载 Python爬虫教程——入门七之正则表达式

在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个...

2015-09-05 01:32:47

阅读数 1085

评论数 0

转载 Python爬虫教程——入门六之Cookie的使用

大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个...

2015-09-05 01:10:40

阅读数 2545

评论数 0

转载 Python爬虫教程——入门五之URLError异常处理

大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获...

2015-09-05 00:23:58

阅读数 2518

评论数 0

转载 Python爬虫教程——入门四之Urllib库的高级用法

1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登...

2015-09-05 00:20:42

阅读数 1366

评论数 0

转载 Python爬虫教程——入门三之Urllib库的基本使用

那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的...

2015-09-05 00:14:53

阅读数 1170

评论数 0

转载 Python爬虫教程——入门一之爬虫基础了解

1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网...

2015-09-05 00:08:23

阅读数 2568

评论数 0

转载 Python爬虫教程——入门一之综述

(from me:偶然看到一个python爬虫系列教程,写的很详细,通过step by step,便可以从入门逐步深入,这里就偷懒直接转了,格式上再整理一下。)Python版本:2.7,Python 3请另寻其他博文。首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间...

2015-09-05 00:06:16

阅读数 2548

评论数 0

提示
确定要删除当前文章?
取消 删除