【爬虫学习一】 Python实现简单爬虫（requests，BeautifulSoup）

最新推荐文章于 2023-01-22 22:17:09 发布

黑桃️

最新推荐文章于 2023-01-22 22:17:09 发布

阅读量820

点赞数 2

分类专栏： Python爬虫文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/weixin_45260385/article/details/108867535

版权

Python爬虫专栏收录该内容

6 篇文章 2 订阅

订阅专栏

以 “中国旅游网”为例

本次需要下载的第三方库：request ， bs4 ， lxml

一：使用 request 的 get 方式抓取数据

import requests
url = 'http://www.cntour.cn/'  #中国旅游网网址

str = requests.get(url)  #此时 str 为 url对象，代表整个网页

print(str.text) #用.text展示网页中的源码

运行结果：
在这里插入图片描述

二：使用 BeautifulSoup 解析网页

import requests
from bs4 import BeautifulSoup
url = 'http://www.cntour.cn/' #中国旅游网网址

str = requests.get(url) #此时 str 为 url对象，代表整个网页

soup = BeautifulSoup(str.text,'lxml') #使用BeautifulSoup解析网页，解析器为lxml

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a') #使用soup.select引用路径

print(data) #展示data

soup.select 后的路径如何寻找？

（1）例如选择该标题，右键点击检查
在这里插入图片描述

（2）然后出现源码，右键对应的源码，选择 copy—copy seletor 即可复制路径
在这里插入图片描述

（3）该路径仅选中了第一条新闻路径，将 li 的：后面的部分删除，就能获取所有的该类型新闻

运行结果：
在这里插入图片描述

三：清洗和组织数据

需要使用的正则符号：
匹配数字 ： \d
匹配前一个字符1次或多次: +

import requests
from bs4 import BeautifulSoup
import re

url = 'http://www.cntour.cn/' #中国旅游网网址

str = requests.get(url) #此时 str 为 url对象，代表整个网页

soup = BeautifulSoup(str.text,'lxml') #使用BeautifulSoup解析网页，解析器为lxml

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a') #使用soup.select引用路径

for item in data:
    result={    #把数据整理为字典类型
        'title': item.get_text(),  #用 get_text()方法提取标签的正文
        'link': item.get('href'),  #用 get('href')用法提取标签中的href属性
        'ID': re.findall('\d+',item.get('href')) #用正则表达式在href中提取出ID
    }
    print(result)

运行结果：
在这里插入图片描述

黑桃️

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
【爬虫学习一】 Python实现简单爬虫（requests，BeautifulSoup）

以 “中国旅游网”为例本次需要下载的第三方库：request ， bs4 ， lxml一：使用 request 的 get 方式抓取数据import requestsurl = 'http://www.cntour.cn/' #中国旅游网网址str = requests.get(url) #此时 str 为 url对象，代表整个网页print(str.text) #用.text展示网页中的源码运行结果：二：使用 BeautifulSoup 解析网页import requ
复制链接

扫一扫