#coding:utf-8 #__author__='wang' import requests import bs4 from bs4 import BeautifulSoup url = 'http://news.baidu.com/' html = requests.get(url).content #利用bs4对网页源代码进行解析,将其解析成为一个文档树对象 bs_soup = BeautifulSoup(html,'lxml') #从解析的Document对象中,通过select选择器定位到指定的元素,从而获取新闻列表 #ul.focuslistnews:查找ul标签,并且ul标签的class属性值包含focuslistnews值, 不是focuslistnews值的不查找 #ul .focuslistnews:查找ul标签内部class属性值包含focuslistnews的标签 new_title_list = bs_soup.select('ul.focuslistnews li a') #先获取a标签对象,然后从对象中取出href值以及文本节点的值 for a in new_title_list: #提取标题和链接 href = a.get('href') title = a.get_text().encode('utf-8') print '新闻标题:{1}新闻链接:{0}'.format(href,title)
bs获取新闻标题及链接
最新推荐文章于 2023-05-09 21:40:45 发布