暑假学习计划:week6.3-python爬虫

一、导入包

 二、定义一个获取指定页码内数据的方法

三、得到的内容列表

 

四、获取内容页的url,选择抓取的标题、发布时间以及新闻发布的内容,

在抓取正文之前要先分析一下正文的html页面,找到正文、作者、来源在html文档中的位置。

文章来源在文档中的位置为:id = "ne_article_source" 的 a 标签。
作者位置为:class = "ep-editor" 的 span 标签。
正文位置为:class = "post_text" 的 div 标签。

 五、爬虫代码

六、结果

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值