销售管理系统的代码及实验报告

最新推荐文章于 2022-12-04 12:33:40 发布



最新推荐文章于 2022-12-04 12:33:40 发布

阅读量1.3w

点赞数

本文链接：https://blog.csdn.net/weixin_44153831/article/details/90173499

版权

本文介绍了使用Python的requests和lxml库，通过面向对象设计模式编写一个简单的爬虫，实现发送请求并获取网页数据。提供了安装依赖库的命令，并展示了如何设置请求头以避免反爬策略。

摘要由CSDN通过智能技术生成

from lxml import etree

发送请求获取数据

import requests

‘’’ 面向对象设计模式，保证代码规范 ‘’’
class Spider(object):
def init(self):
self.headers = { # 反反爬虫
# ‘Connection’: ‘close’,
“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36”,
“Referer”:“https://www.mzitu.com/tag/ugirls/”,
}
self.pages = [1,2,3]
pass

def start_request(self):
    for i in range(1,4):
        # 1.获取整站数据
        # https://www.mzitu.com/page/2/
        response = requests.get('https://www.mzitu.com/page/'+str(i))  # 请求
        # print(response.text)  # 请求得到的一个 文本内容
        html = etree.HTML(response.text)
        # 2.获取我们想要的数据 图片标题、图片链接
        src_list = html.xpath('//img[@class="lazy"]/@data-original'