Python爬虫程序实例

最新推荐文章于 2024-07-15 13:44:00 发布

刘二光

最新推荐文章于 2024-07-15 13:44:00 发布

阅读量1.9k

点赞数

分类专栏： python3 文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/weixin_43621549/article/details/121749482

版权

python3 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包，所以我们之前要安装这两个包，如果不清楚是否安装，可以使“pip list”查看是否已经安装。
做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查，在网页空白处右击鼠标在弹出菜单中，使用“检查”菜单项。
在这里插入图片描述
在检查元素窗口中，在“Elements”窗口仔细查看网页元素，特别要观察所要截取的内容前后HTML元素的特征。

在上述代码中：主要抓取

中的元素，这里看到它们的class元素的名称都是“news_li_strong”，所以在代码中使用：
div = news_li.find_all(‘li’, class_ = ‘news_li_strong’)
可以得到新闻的标题的li区域内容，再使用对span区域取值，可以取到新闻标题的名称：
spant=lia.find_all(‘span’, class_ = ‘total_txt’)
spant是各标题的集合。以下取得各新闻内容的链接地址：
suburl=""
for a in lia.find_all(‘a’):
suburl=a.get(‘href’)
urlstr=self.server + suburl
再使用如下的代码取得新闻的具体内容：
req = requests.get(url = target)
html = req.text
bf = BeautifulSoup(html)
texts = bf.find_all(‘div’, class_ = ‘context_info_bottle_con’)
texts = texts[0].text.replace(’\xa0’*8,’\n\n’)
return texts
这样取得了所有内容后，再使用写入即可将新闻标题与内容抓取到文件中。
源码下载：Python源码

刘二光

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫程序实例

在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包，所以我们之前要安装这两个包，如果不清楚是否安装，可以使“pip list”查看是否已经安装。做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查，在网页空白处右击鼠标在弹出菜单中，使用“检查”菜单项。在检查元素窗口中，在“Elements”窗口仔细查看网页元素，特别要观察所要截取的内容前后HTML元素的特征。在上述代码中：主要抓取中的元素，这里看到它们的class元素的名称都是“news_li_strong”，所以在代
复制链接

扫一扫