Python爬虫实战——爬取新闻数据（简单的深度爬虫）

府鲜生

已于 2023-03-02 22:48:20 修改

阅读量1w

点赞数 13

文章标签： python 爬虫

于 2023-03-02 17:02:00 首次发布

本文链接：https://blog.csdn.net/weixin_54243306/article/details/129303830

版权

本文演示了一种使用Python爬虫技术抓取中国新闻网2023年1月新闻的方法。通过requests和lxml库处理HTTP请求和HTML解析，提取新闻标题、正文和分类信息，并将数据存储到Excel表格中。代码处理了链接的组合、请求异常以及不同页面结构的正文提取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

又到了爬新闻的环节（好像学爬虫都要去爬爬新闻，没办法谁让新闻一般都很好爬呢XD，拿来练练手），只作为技术分享，这一次要的数据是分在了两个界面，所以试一下深度爬虫，不过是很简单的。

数据目标

数据爬取

网页url

url = 'https://www.chinanews.com.cn/scroll-news/news1.html'

1.先看看网站网址的规律

发现这部分就是每一天的新闻，现在把这个链接组合一下，我暂时只拿1月份的数据

# 组合日期链接
def cnew_url():
    f = open(r'D:/工作文件/cnew_url.txt', 'w', encoding='utf8')
    for i in range(1, 32):
        if i < 10:
            url = 'https://www.chinanews.com.cn/scroll-news/2023/010' + str(i) + '/news.shtml'
        else:
            url = 'https://www.chinanews.com.cn/scroll-news/2023/01' + str(i) + '/news.shtml'
        f.write(url + '\n')
    f.close()

2.接下来访问每一天的链接获取到新闻的链接还有我们需要的分类的数据，然后再对新闻链接发起request请求获取到我们需要的标题和正文数据

def cnew_data():
    f = open(r'D:/工作文件/cnew_url.txt', en

最低0.47元/天解锁文章

Python爬虫实战——爬取新闻数据（简单的深度爬虫）

前言

数据目标

相关库

数据爬取