Python3爬虫（实战速成篇）以爬取新浪新闻网页项目为例

最新推荐文章于 2024-04-30 19:24:04 发布

VIP文章做梦敲代码

最新推荐文章于 2024-04-30 19:24:04 发布

阅读量5k

点赞数 11

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_45380671/article/details/107783074

版权

Python3爬虫（实战速成篇）

环境准备
- pycharm下导入requests等库
爬虫三步走
项目源代码

接下来将以爬虫的步骤顺序，实战的角度，介绍爬虫所要了解的基础知识。

以爬取新浪新闻网页项目为例

环境准备

pycharm下导入requests等库

在这里插入图片描述

爬虫三步走

爬虫第一步

	① 发送请求，返回响应。

可以使用 get命令发送访问请求，再返回网页代码。

import requests #导入requests库
#获取url的html文件
def getHTMLText(url):
    try:
        r = requests.get(url) # url就是网页链接
        r.encoding = r.apparent_encoding # 自动分析网页内容编码方式
        return r.text # 返回网页的HTML文件代码
    except:
        return '请求失败'

爬虫第二步

	② 解析网页，提取数据。

首先，我使用Google Chrome浏览器，按 F12 打开“开发者工具”，观察网页代码：

在这里插入图片描述

我们可以通过多次点击不同url连接，分析链接所在的标签情况，总结规律。
分析得出链接都处于<div class=‘main-content’ 标签下，并且链接都位于’a’标签，由此，我们可以得出以下代码：

#解析网页，提取数据
def parsePage(html, list):

最低0.47元/天解锁文章

做梦敲代码

关注

11
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
Python3爬虫（实战速成篇）以爬取新浪新闻网页项目为例

以爬虫的步骤顺序，实战的角度，介绍爬虫所要了解的基础知识
复制链接

扫一扫