今天练习爬取中国新闻网的爬虫,比较适合爬虫新手进行练习
本文仅用于技术交流,不得用于商业用途。不遵守者,与本文作者无关。
首先来看看中国新闻网 http://www.chinanews.com/
有很多新闻页面的链接,我们点开F12进行分析:
网站新闻分别在好几个标签,今天做个简要版本的,我们从中就拿其中一个来进行获取吧。
用到的第三方库有Requestss库,BeautifulSoup库以及正则表达式库
首先引入库,以及定位程序入口,主函数
在这里插入图片描述
注意要对返回的内容进行编码,否则会生成乱码,无法解析HTML文本,如下图
然后!
难点是该网站的HTML文本中新闻链接有一些是获取后打开不完整的,如下
所以我们用正则提取出来即可,好了,分析到这,直接上代码。
import requests
import re
from bs4 import