百度飞桨学院小白逆袭第二天题目解析

最新推荐文章于 2021-09-10 00:11:13 发布

yuziqiao

最新推荐文章于 2021-09-10 00:11:13 发布

阅读量368

点赞数

分类专栏： python 爬虫文章标签： python 百度

本文链接：https://blog.csdn.net/yuziqiao/article/details/105810571

版权

本文详细解析了如何使用Python的requests和BeautifulSoup库爬取《青春有你2》选手的图片，包括发送请求、接收响应、解析数据和保存图片的步骤。同时，介绍了requests和BeautifulSoup的基本用法，以及爬虫工作原理。

摘要由CSDN通过智能技术生成

百度飞桨学院小白逆袭第二天题目解析

今天的作业：
！！！作业说明！！！
1.请在下方提示位置，补充代码，完成《青春有你2》选手图片爬取，将爬取图片进行保存，保证代码正常运行
2.打印爬取的所有图片的绝对路径，以及爬取的图片总数，此部分已经给出代码。请在提交前，一定要保证有打印结果，如下图所示：
在这里插入图片描述
深度学习一般过程:

在这里插入图片描述
收集数据，尤其是有标签、高质量的数据是一件昂贵的工作。
爬虫的过程，就是模仿浏览器的行为，往目标站点发送请求，接收服务器的响应数据，提取需要的信息，并进行保存的过程。
Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库

任务描述
本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。
数据获取：链接: https://baike.baidu.com/item/青春有你第二季. 在这里插入图片描述

上网的全过程:

普通用户:
打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。

爬虫程序:
模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。

爬虫的过程：

1.发送请求（requests模块）
2.获取响应数据（服务器返回）
3.解析并提取数据（BeautifulSoup查找或者re正则）
4.保存数据

本实践中将会使用以下两个模块，首先对这两个模块简单了解以下：

request模块：

requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/

requests.get(url)可以发送一个http get请求，返回服务器响应内容。

BeautifulSoup库：

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml。

BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup, “lxml”)，推荐使用lxml作为解析器,因为效率更高。

下面开始演示代码

一、爬取百度百科中《青春有你2》中所有参赛选手信息，返回页面数据

import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
import os

#获取当天的日期,并进行格式化,用于后面文件命名，格式:20200420
today = datetime.date.today().strftime('%Y%m%d')    

def crawl_wiki_data():
    """
    爬取百度百科中《青春有你2》中参赛选手信息，返回html
    """
    headers = {
    
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    url='https://baike.baidu.com/item/青春有你第二季'                         

    try:
        response = requests.get(url,headers=headers)
        print(response.status_code)

        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
        soup = BeautifulSoup(response.text,'lxml')
        
        #返回的是class为table-view log-set-param的<table>所有标签
        tables = soup.find_all('table',{
   'class':'table-view log-set-param'})

        crawl_table_title = "参赛学员"

        for table in  tables:           
            #对当前节点前面的标签和字符串进行查找
            table_titles = table.find_previous<

最低0.47元/天解锁文章

yuziqiao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
百度飞桨学院小白逆袭第二天题目解析

百度飞桨学院小白逆袭第二天题目解析今天的作业：！！！作业说明！！！1.请在下方提示位置，补充代码，完成《青春有你2》选手图片爬取，将爬取图片进行保存，保证代码正常运行2.打印爬取的所有图片的绝对路径，以及爬取的图片总数，此部分已经给出代码。请在提交前，一定要保证有打印结果，如下图所示：深度学习一般过程:收集数据，尤其是有标签、高质量的数据是一件昂贵的工作。爬虫的过程，就是模仿浏览...
复制链接

扫一扫

专栏目录