前言
又到了爬新闻的环节(好像学爬虫都要去爬爬新闻,没办法谁让新闻一般都很好爬呢XD,拿来练练手),只作为技术分享,这一次要的数据是分在了两个界面,所以试一下深度爬虫,不过是很简单的。
数据目标
相关库
import openpyxl
import requests
from lxml import etree
from tqdm import tqdm
数据爬取
网页url
url = 'https://www.chinanews.com.cn/scroll-news/news1.html'
1.先看看网站网址的规律
发现这部分就是每一天的新闻,现在把这个链接组合一下,我暂时只拿1月份的数据
# 组合日期链接
def cnew_url():
f = open(r'D:/工作文件/cnew_url.txt', 'w', encoding='utf8')
for i in range(1, 32):
if i < 10:
url = 'https://www.chinanews.com.cn/scroll-news/2023/010' + str(i) + '/news.shtml'
else:
url = 'https://www.chinanews.com.cn/scroll-news/2023/01' + str(i) + '/news.shtml'
f.write(url + '\n')
f.close()
2.接下来访问每一天的链接获取到新闻的链接还有我们需要的分类的数据,然后再对新闻链接发起request请求获取到我们需要的标题和正文数据
def cnew_data():
f = open(r'D:/工作文件/cnew_url.txt', en