用python抓取糗事百科的小程序

昊虹AI笔记

于 2016-08-27 09:51:24 发布

阅读量1.3k

点赞数

分类专栏： python与爬虫

本文链接：https://blog.csdn.net/wenhao_ir/article/details/52333768

版权

python与爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

直接上代码和运行结果

#by suwenhao
#QQ 2487872782
import urllib
import urllib2
import re

page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read().decode('utf-8')
pattern = re.compile('<div class="content">(.*?)</div>',re.S)
items = re.findall(pattern,content)
for item in items:
    print item

re.s表示多行匹配，详细说明 http://www.myext.cn/other/a_29426.html

运行结果如下图所示：