二、requests模块

requests模块

urlib模块:比较古老,其封装的相关爬虫的操作是比较麻烦,复杂的

requests模块:用法比较简洁并且很高效

requests模块:python是原生的一款基于网络请求的模块,功能非常强大,简单便携,效率极高。

作用:模拟浏览器发请求。

如何使用:

  • 指定url

  • 基于requests模块发起请求

  • 获取响应对象中的数据值

  • 持久化存储

环境安装:

pip install requests

入手采集百度首页

import requests
if __name__ == '__main__':
    # 指定url
    url = "https://www.baidu.com/"
    # 发起请求
    response = requests.get(url=url)
    # 获取请求 返回字符串
    info = response.text
    # 持久化数据
    with open("./数据存储/baidu.html",'w',encoding='utf-8') as fp:
        fp.write(info);
    print("爬取数据结束")

案例

1、UA检测伪装

简易网页采集器(指定关键字搜索保存)

import requests
​
​
#UA伪装:User-Agent 请求载体的身份标识
# UA伪装: 门户网站的服务器会检测对应请求的载体身份标识
# 如果检测到请求的载体身份标识为某一款浏览器,
# 说明该请求是一个正常请求,但是如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求
# 服务器端很可能就会拒绝该次请求。
if __name__ == '__main__':
    getInfo = "电影"
    #UA伪装:将对应的User-Agent封装到一个字典中
    headers = {
    'User-Agent' : "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36"
    }
    # 指定url
    url = "https://www.sogou.com/web"
    param = {
        'wd':getInfo
    }
    # 发起请求
    response = requests.get(url=url,params=param,headers=headers)
    # 获取请求 返回字符串
    info = response.text
    # 持久化数据
    with open("./数据存储/"+getInfo+".html",'w',encoding='utf-8') as fp:
        fp.write(info);
    print("爬取数据结束")

2、破解百度翻译

post请求(携带了参数)

响应数据是一组json数据

import json
​
import requests
​
# 从response headers信息中的content-type中我们可以知道我们响应得到的数据类型
# python操作json文件通过了两种方法:
# load():用于读取json文件;
# dump():用于写入json文件
if __name__ == '__main__':
    kw = input("请输入你想要的翻译结果:")
    post_url = "https://fanyi.baidu.com/sug"
    header = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'
    }
    data ={
        'kw':kw
    }
    #请求发送
    response = requests.post(url=post_url,data=data,headers=header)
    #获取响应数据,如果确定响应数据是json类型,才可以使用json()
    dict_info = response.json()
    ##存储文件 将字典数据写入到json文件中
    file = open('./数据存储/'+kw+'.json','w',encoding='utf-8');
    json.dump(dict_info,fp = file,ensure_ascii=False)
    print("爬虫数据完成")

3、豆瓣电影抓取

import json
​
import requests
​
​
if __name__ == '__main__':
    url = "https://movie.douban.com/j/chart/top_list"
    header = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'
    }
    param ={
        'type': '24',
        'interval_id': '100:90',
        'action': 'None',
        'start': '0', # 从第几部开始取
        'limit': '100' #一次取多少数据
    }
    #请求发送
    response = requests.get(url=url,params=param,headers=header)
    #获取响应数据,如果确定响应数据是json类型,才可以使用json()
    dict_info = response.json()
    ##存储文件 将字典数据写入到json文件中
    file = open('./数据存储/豆瓣喜剧电影信息.json','w',encoding='utf-8');
    json.dump(dict_info,fp = file,ensure_ascii=False)
    print("爬虫数据完成")

雨果亚马逊选品采集

# 项目目的爬取雨国跨境亚马逊选品信息
# 该网页相关数据包括:产品数据信息。。#最终需要爬取每个产品的详细信息(详情页)---动态加载出的页面数据(不可直接由当前页面的url解析出来)
# 爬取思路:先爬取主页数据再定位到主页各产品名称对应的id(通过首页爬取每个产品对应的产品id) 再对每个详情页发请求
# 验证:用XHR来捕获动态数据包查看动态数据的数据结构与类型
​
import requests
​
if __name__ == "__main__":
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }  # 反反爬机制:伪装成用户通过浏览器登陆
    url = 'https://www.cifnews.com/supply/ajax/product/search'
    # 参数的封装
    for page in range(1, 6):
        page = str(page)
        params = {
            'page': page, #第一页
            'size': '40'
        }
        # 将发请求与获取响应数据合并起来 获取到的是带有企业id的字典类型的json数据
        json_ids = requests.get(url=url, headers=headers,
                                 params=params).json()  # 对url发起访问请求;通过post()方法获取请求页面信息,以.json的数据形式。
​
        id_list = []  # 存储商品的id
        all_data_list = []  # 存储所有的商品详情数据
        # 批量获取不同产品的id值(企业详情页url=原url+产品id)统一的url+不同的参数
        #
        # # 该字典的值是一个列表(列表中的每一个小字典对应一个产品信息)
        for dic in json_ids['data']:  # 遍历列表中的每一个字典并取出id数据
            id_list.append(dic['productCode'])
    print(id_list)
​
    # 获取商品详情数据 这个地址 每个产品都是写死一个页面数据,所以要保存 需要进行数据处理
    for id in id_list:
        post_url = 'https://www.cifnews.com/ccee/product/'+id
        ##采集的是每个产品信息的网页数据,之后需要进行处理
        detail_info = requests.get(url=post_url).text
        print(detail_info)
        ##可以批量将每个产品的详情数据保存在list中
        # all_data_list.append(detail_json)
        # print(detail_json)
​
    # # 持久化存储all_data_list
    # fp = open('./数据存储/亚马孙商品.json', 'w', encoding='utf-8')  # 写入并保存数据
    # json.dump(all_data_list, fp=fp, ensure_ascii=False)
    # print('保存成功')

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值