运用Beautifulsoup对新闻网站进行简单的爬取

最新推荐文章于 2024-05-15 17:38:08 发布

zangao0718

最新推荐文章于 2024-05-15 17:38:08 发布

阅读量915

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/zangao0718/article/details/84196898

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

利用BeautifulSoup可以很简单的爬取网页上的内容。这个套件可以把一个网页变成DOM tree

要使用BeautifulSoup需要使用命令行进行安装，不过也可以直接用python的ide。

基础操作 :

①

使用之前需要先从bs4中导入包：from bs4 import BeautifulSoup

②

使用的代码：soup = BeautifulSoup(res.text, 'html.parser')

括号中的第一个参数中的res是源网页，res.text是源网页的html，第二个参数'html.parser'是使用html的剖析器。、

③

可以使用select函数找出所有含有特定标签的HTML元素，例如：soup.select('h1')可以找出所有含有h1标签得到元素

它会返回一个list，这个list包含所有含'h1'的元素.

下面就对凤凰网的一篇文章进行简单的爬取：

# coding=utf-8
from urllib import request, parse
from bs4 import BeautifulSoup
import re

#网页地址
url='http://news.ifeng.com/a/20181118/60165418_0.shtml'
#获取web网页
html=request.urlopen(url).read().decode('utf-8','ignore')
# 解析
soup=BeautifulSoup(html,'html.parser')

# 获取信息
page=soup.find('div',{'id':'artical'})
#根据所要爬取内容提取网页中的CSS元素，如标题及内容
page_topic=page.find('h1',id='artical_topic')
#使用text属性，提取标题和文本内容
topic=page_topic.get_text()
content=''
content=content+topic
page_content = page.find('div',id='main_content')
# contents=page_content.select('p')
for p in page_content.select('p'):
    content=content+p.get_text()
# print(topic)
# print('\r')
print(content)

这样就可以实现对网页新闻进行简单的爬取了

zangao0718

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
运用Beautifulsoup对新闻网站进行简单的爬取

利用BeautifulSoup可以很简单的爬取网页上的内容。这个套件可以把一个网页变成DOM tree要使用BeautifulSoup需要使用命令行进行安装，不过也可以直接用python的ide。基础操作 :①使用之前需要先从bs4中导入包：from bs4 import BeautifulSoup②使用的代码：soup = BeautifulSoup(res.text, ...
复制链接

扫一扫

专栏目录