Python爬虫入门推荐案例:学会爬虫_表情包手到擒来~_爬虫从入门到入狱表情包-CSDN博客

本文链接：https://blog.csdn.net/xy258009/article/details/121648080

前言

哈喽，哈喽，各位小伙伴们早上好，我来更新了！

超感谢大家的喜欢与支持💕

这一期文章内容呢:之前有一个小可爱私信我，想要小表情包!(因为基础学完了.)

因为我一直在更新最基础的知识点_很多同学可能跟着我已经学完了<Python从入门到实战的基础

系列内容>刚好,基础的知识上一期讲到了第三方模块的安装与使用,新手的练习题库也出了几大箩

筐了!还是按照我的一个更文的进度,今天讲一个最最简单的小爬虫,只有几行代码的哈!

希望大家喜欢别忘了文末点击“三连”或者“关注下我的微信公众号啦”！这对我真的很重要呜！

什么是爬虫?

网络爬虫:

Python拥有强大的类库，一个小白用几行代码就可以写个爬虫去爬段子爬网站了。然而爬虫的真正

作用是从网络上获取有用的数据或信息，来做数据分析，这可以节省大量人工时间。能够编写网络

爬虫的编程语言有不少比如C、C++、Java都可以做爬虫，但Python绝对是其中的主流之一。

Python自带的urllib库，第三方的requests库和Scrappy框架让开发爬虫变得非常容易。

代码演示:

1.创建请求头，也被称为伪装浏览器.

请求头就是一个用户代理，在请求头中是包含了当前用户的操作系统版本信息以及当前用户访问网站所使用的浏览器版本信息。

2.那么为什么要创建请求头呢?

因为在网站访问的过程中，有大部分网站会对当前请求做验证，来判断当前的请求是否合法(不是

使用浏览器来获取网站数据的话会被认为非法请求)。如果不添加请求头的话，可能会出现当前网

站没有访问权限。

3.思路步骤

我要爬的是这张图片:

1、创建请求头，也被称为伪装浏览器

2、使用requests 网络请求库完成网站数据请求

3、获取数据后使用bs4对页面数据进行提取

需要用到一个非常好用的第三方包：bs4。

4.环境安装

本文使用的是:Python3 Pycharm社区版模块requests \ bs4.

第三方模块安装:

pip install +模块名或带豆瓣镜像源 pip install -i https://pypi.douban.com/simple/ +模块名

5.请求头

爬取的表情包网址:热门表情_发表情，表情包大全fabiaoqing.com

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'

6.使用requests 网络请求库完成网站数据请求

当我们创建完成请求头之后就需要访问网站拿到网站的页面数据了，那么如何获取网站数据呢，这

时候就需要使用requests来帮助我们获取了。

7.获取数据后使用bs4对页面数据进行提取

因为一个页面包含的数据太多了，例如：搜索框、页面广告、等等。但是我们只是想要获取页面中的表情包图片，那该怎么办呢？这时候我们就需要用到一个非常好用的第三方包：bs4

使用方法：

（1）在浏览器中按住f12调出开发者工具，点击Elements，之后点击元素选择器(左边的小箭头)，之后选中页面上的图片，左键点击。浏览器就会帮助我们定位图片所在html代码的位置

（2）提取完成之后将会获得当前页面所有的图片标签，我们对当前获取的链接进行请求并使用python内置的with open方法将图片数据下载到文件夹images下.下载的图片名称:图片.jpg

name = '图片.jpg'
with open(f'./images/{name}', 'wb')as f:
    f.write(response.content)

至此，一个简单的微信表情包爬虫就制作完成。

8.附完整的项目源码

import os
import requests
from bs4 import BeautifulSoup

if not os.path.exists('./images/'):
    os.mkdir('./images/')

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'
}

url = 'http://wx4.sinaimg.cn/large/ceeb653ely8gw2o2b5f61j20jz0j5dgr'

response = requests.get(url, headers=headers)

name = '图片.jpg'
with open(f'./images/{name}', 'wb')as f:
    f.write(response.content)