一、导入包
二、定义一个获取指定页码内数据的方法
三、得到的内容列表
四、获取内容页的url,选择抓取的标题、发布时间以及新闻发布的内容,
在抓取正文之前要先分析一下正文的html页面,找到正文、作者、来源在html文档中的位置。
文章来源在文档中的位置为:id = "ne_article_source" 的 a 标签。
作者位置为:class = "ep-editor" 的 span 标签。
正文位置为:class = "post_text" 的 div 标签。
五、爬虫代码
六、结果