新闻网简要爬取

本文介绍如何使用Python的Requests、BeautifulSoup库和正则表达式爬取中国新闻网的部分新闻链接。文章适合爬虫新手,通过F12分析网页结构,解决HTML中不完整链接问题,实现新闻链接的提取。请注意,内容仅供技术交流,不可用于商业目的。
摘要由CSDN通过智能技术生成

今天练习爬取中国新闻网的爬虫,比较适合爬虫新手进行练习
本文仅用于技术交流,不得用于商业用途。不遵守者,与本文作者无关。

首先来看看中国新闻网 http://www.chinanews.com/在这里插入图片描述
有很多新闻页面的链接,我们点开F12进行分析:
在这里插入图片描述

在这里插入图片描述
网站新闻分别在好几个标签,今天做个简要版本的,我们从中就拿其中一个来进行获取吧。
用到的第三方库有Requestss库,BeautifulSoup库以及正则表达式库
首先引入库,以及定位程序入口,主函数
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

注意要对返回的内容进行编码,否则会生成乱码,无法解析HTML文本,如下图在这里插入图片描述
然后!在这里插入图片描述
难点是该网站的HTML文本中新闻链接有一些是获取后打开不完整的,如下在这里插入图片描述
所以我们用正则提取出来即可,好了,分析到这,直接上代码。

import requests
import re
from bs4 import
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值