Python爬取学校文章并储存mysql
python爬取学校文章并储存mysql
问题简介
爬取福⼤要⽂(http://news.fzu.edu.cn/html/fdyw/) 要求: 1.包含发布⽇期,作者,标题,阅读数以及正⽂。 2.可⾃动翻⻚。 3.范围:2020年内
思路
要获得的数据一共可以分为几个阶段:
1.发布⽇期,标题,二级网址可以从一级网址网页源码获得(http://news.fzu.edu.cn/html/fdyw/1.html)
【1.html代表当前是第一页,要翻页把这里改成2/3/…html】
<div class="list_main_content">
<ul>
<li>
<span class="list_time">2020-11-26</span>
<a