二、requests模块

虞过

已于 2022-12-08 22:06:55 修改

阅读量338

点赞数

文章标签： python 开发语言

于 2022-12-08 22:04:10 首次发布

本文链接：https://blog.csdn.net/weixin_44210186/article/details/128244536

版权

requests模块

urlib模块：比较古老，其封装的相关爬虫的操作是比较麻烦，复杂的

requests模块：用法比较简洁并且很高效

requests模块：python是原生的一款基于网络请求的模块，功能非常强大，简单便携，效率极高。

作用：模拟浏览器发请求。

如何使用：

指定url
基于requests模块发起请求
获取响应对象中的数据值
持久化存储

环境安装：

pip install requests

入手采集百度首页

import requests
if __name__ == '__main__':
    # 指定url
    url = "https://www.baidu.com/"
    # 发起请求
    response = requests.get(url=url)
    # 获取请求 返回字符串
    info = response.text
    # 持久化数据
    with open("./数据存储/baidu.html",'w',encoding='utf-8') as fp:
        fp.write(info);
    print("爬取数据结束")

案例

1、UA检测伪装

简易网页采集器（指定关键字搜索保存）

import requests


#UA伪装：User-Agent 请求载体的身份标识
# UA伪装: 门户网站的服务器会检测对应请求的载体身份标识
# 如果检测到请求的载体身份标识为某一款浏览器，
# 说明该请求是一个正常请求，但是如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求为不正常的请求
# 服务器端很可能就会拒绝该次请求。
if __name__ == '__main__':
    getInfo = "电影"
    #UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
    'User-Agent' : "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36"
    }
    # 指定url
    url = "https://www.sogou.com/web"
    param = {
        'wd':getInfo
    }
    # 发起请求
    response = requests.get(url=url,params=param,headers=headers)
    # 获取请求 返回字符串
    info = response.text
    # 持久化数据
    with open("./数据存储/"+getInfo+".html",'w',encoding='utf-8') as fp:
        fp.write(info);
    print("爬取数据结束")

2、破解百度翻译

post请求（携带了参数）

响应数据是一组json数据

import json

import requests

# 从response headers信息中的content-type中我们可以知道我们响应得到的数据类型
# python操作json文件通过了两种方法：
# load()：用于读取json文件；
# dump()：用于写入json文件
if __name__ == '__main__':
    kw = input("请输入你想要的翻译结果：")
    post_url = "https://fanyi.baidu.com/sug"
    header = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'
    }
    data ={
        'kw':kw
    }
    #请求发送
    response = requests.post(url=post_url,data=data,headers=header)
    #获取响应数据，如果确定响应数据是json类型，才可以使用json()
    dict_info = response.json()
    ##存储文件 将字典数据写入到json文件中
    file = open('./数据存储/'+kw+'.json','w',encoding='utf-8');
    json.dump(dict_info,fp = file,ensure_ascii=False)
    print("爬虫数据完成")

3、豆瓣电影抓取

import json

import requests


if __name__ == '__main__':
    url = "https://movie.douban.com/j/chart/top_list"
    header = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'
    }
    param ={
        'type': '24',
        'interval_id': '100:90',
        'action': 'None',
        'start': '0', # 从第几部开始取
        'limit': '100' #一次取多少数据
    }
    #请求发送
    response = requests.get(url=url,params=param,headers=header)
    #获取响应数据，如果确定响应数据是json类型，才可以使用json()
    dict_info = response.json()
    ##存储文件 将字典数据写入到json文件中
    file = open('./数据存储/豆瓣喜剧电影信息.json','w',encoding='utf-8');
    json.dump(dict_info,fp = file,ensure_ascii=False)
    print("爬虫数据完成")

雨果亚马逊选品采集

# 项目目的爬取雨国跨境亚马逊选品信息
# 该网页相关数据包括：产品数据信息。。#最终需要爬取每个产品的详细信息（详情页）---动态加载出的页面数据（不可直接由当前页面的url解析出来）
# 爬取思路：先爬取主页数据再定位到主页各产品名称对应的id（通过首页爬取每个产品对应的产品id） 再对每个详情页发请求
# 验证：用XHR来捕获动态数据包查看动态数据的数据结构与类型

import requests

if __name__ == "__main__":
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }  # 反反爬机制：伪装成用户通过浏览器登陆
    url = 'https://www.cifnews.com/supply/ajax/product/search'
    # 参数的封装
    for page in range(1, 6):
        page = str(page)
        params = {
            'page': page, #第一页
            'size': '40'
        }
        # 将发请求与获取响应数据合并起来 获取到的是带有企业id的字典类型的json数据
        json_ids = requests.get(url=url, headers=headers,
                                 params=params).json()  # 对url发起访问请求；通过post（）方法获取请求页面信息，以.json的数据形式。

        id_list = []  # 存储商品的id
        all_data_list = []  # 存储所有的商品详情数据
        # 批量获取不同产品的id值（企业详情页url=原url+产品id）统一的url+不同的参数
        #
        # # 该字典的值是一个列表（列表中的每一个小字典对应一个产品信息）
        for dic in json_ids['data']:  # 遍历列表中的每一个字典并取出id数据
            id_list.append(dic['productCode'])
    print(id_list)

    # 获取商品详情数据 这个地址 每个产品都是写死一个页面数据，所以要保存 需要进行数据处理
    for id in id_list:
        post_url = 'https://www.cifnews.com/ccee/product/'+id
        ##采集的是每个产品信息的网页数据，之后需要进行处理
        detail_info = requests.get(url=post_url).text
        print(detail_info)
        ##可以批量将每个产品的详情数据保存在list中
        # all_data_list.append(detail_json)
        # print(detail_json)

    # # 持久化存储all_data_list
    # fp = open('./数据存储/亚马孙商品.json', 'w', encoding='utf-8')  # 写入并保存数据
    # json.dump(all_data_list, fp=fp, ensure_ascii=False)
    # print('保存成功')

虞过

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
二、requests模块

urlib模块：比较古老，其封装的相关爬虫的操作是比较麻烦，复杂的requests模块：用法比较简洁并且很高效requests模块：python是原生的一款基于网络请求的模块，功能非常强大，简单便携，效率极高。作用：模拟浏览器发请求。如何使用：指定url基于requests模块发起请求获取响应对象中的数据值持久化存储环境安装：入手采集百度首页# 指定url# 发起请求# 获取请求返回字符串# 持久化数据。
复制链接

扫一扫