Python网络爬虫实战

Fɪɴᴅ ᴛɪᴍᴇ 孙阳

已于 2022-03-20 15:21:54 修改

阅读量106

点赞数 1

文章标签： python 网络爬虫

于 2022-03-20 14:06:26 首次发布

本文链接：https://blog.csdn.net/weixin_68042636/article/details/123611996

版权

1、确定 URL 并抓取页面代码

import urllib
import urllib2
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
try:
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

2、添加headers并抓取页面代码

try:
    #定义请求头
    headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"}
    #定义请求，传入请求头
    req=request.Request(url,headers=headrs)
    #打开网页
    resp=request.urlopen(req)
    #打印响应码，解码
    # print(resp.read().decode('utf-8'))

3、提取某一页的所有段子

content = response.read().decode('utf-8')

pattern = re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
                         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',re.S)

items = re.findall(pattern,content)
for item in items:
    print item[0],item[1],item[2],item[3],item[4]

现在正则表达式在这里稍作说明 1）.? 是一个固定的搭配，. 和代表可以匹配任意无限多个字符，加上？表示使用非贪婪模式进行匹配，也就是我们会尽可能短地做匹配，以后我们还会大量用到 .? 的搭配。 2）(.?) 代表一个分组，在这个正则表达式中我们匹配了五个分组，在后面的遍历 item 中，item [0] 就代表第一个 (.?) 所指代的内容，item [1] 就代表第二个 (.?) 所指代的内容，以此类推。 3）re.S 标志代表在匹配时为点任意匹配模式，点。也可以代表换行符。这样我们就获取了发布人，发布时间，发布内容，附加图片以及点赞数。在这里注意一下，我们要获取的内容如果是带有图片，直接输出出来比较繁琐，所以这里我们只获取不带图片的段子就好了。所以，在这里我们就需要对带图片的段子进行过滤。我们可以发现，带有图片的段子会带有类似下面的代码，而不带图片的则没有，所以，我们的正则表达式的 item [3] 就是获取了下面的内容，如果不带图片，item [3] 获取的内容便是空。

#修改后代码
import urllib
import urllib2
import re

page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
                         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',re.S)
    items = re.findall(pattern,content)
    for item in items:
        haveImg = re.search("img",item[3])
        if not haveImg:
            print item[0],item[1],item[2],item[4]
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

4.面向对象模式

from urllib import request
import re
 
class tieba:
    #初始化
    def __init__(self):
        # 定义url
        self.url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="
        # 定义请求头
        self.headrs={"User-Agent":" Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"}
        #列表，存储解析后的结果
        self.stories=[]
    #下载页面
    def getPage(self,page_number):
        try:
            # 定义请求，传入请求头
            req=request.Request(self.url+str(page_number),headers=self.headrs)
            # 打开网页
            resp=request.urlopen(req)
            # 打印响应码，解码
            content=resp.read().decode("utf-8")
            return content
        except request.URLError as e:
            # 打印响应码
            if hasattr(e, 'code'):
                print(e.code)
            # 打印异常原因
            if hasattr(e, 'reason'):
                print(e.reason)
    #解析页面
    def rexgPage(self,content):
        # 定义正则表达式
        # <a re