需求:想要获得这个页面每一条资讯的标题,以及详情页的部分内容,文章来源以及发布时间
进入此页面发现可以从这个页面找到 资讯的标题
打开开发者工具,发现所有的li标签都在这里出现,而li标签里面里 的a标签就是我们所要的title 和详情页的url。
先通过循环的方式获得标题和url
ur = tree.xpath('//ul[@class = "TList"]/li')
for li in ur:
#获得标题
title = li.xpath('./a/text()')[0]
title = title.encode('iso-8859-1').decode('utf-8')
#获得新地址
new_url = li.xpath('./a/@href')[0]
r = requests.get(url=new_url,headers=headers).text
进入详情页后,想获得时间以及讯息来源,仍然用F12打开,并且定位到时间和讯息来源的位置。
发现 都在[class= “artMain mBlock”]这个类里面
div_list = new_tree.xpath('//div[@class = "artMain mBlock"]')
#文章发布时间
time