1分钟了解Requests和BeautifulSoup4

本文介绍了如何使用Python的Requests库获取网页HTML内容,并结合BeautifulSoup进行网页信息解析,通过实例展示了抓取电影信息的过程,强调了设置适当延迟以避免IP被封的重要性。
摘要由CSDN通过智能技术生成

最近跟着detalF学习了爬虫知识,记录一下免得过两天忘记了

1. Requests 用来获取网页信息

  • 使用 requests.get(‘目标网址’)方法就可以抓取html信息,真的是非常非常简单
url = "https://movie.douban.com
headers = {
   'user-agent': 'Mozilla/5.0(Windows NT 10.0;Win64 x64)AppleWebkit/537.36(KHTML,like Gecko) chrome/58.0.3029.110 Safari/537.36'}"
r = requests.get(url=url, headers=headers)
print(r.text) # 打印获取的html信息

2. BeautifulSoup 用来解析网页信息,提取自己想要的信息

刚才使用Requests.get() 获取html信息,提取有用的信息就需要用到BeautifualSoup。
调用find() | findAll()方法获取自己想要的参数,然后存到变量就可以了。

# 使用BeautifulSoup解析html
soup = BeautifulSoup(r.text, "html.parser")
# 获取目标信息
        movie_info['title'] = soup.find(property="v:itemreviewed").string  # 电影名称
        movie_info['director'] = soup.find(rel='v:directedBy').string  # 导演
        writer = soup.findAll(class_='attrs')
        movie_info['writer'] = get_list(soup.findAll(class_='attrs')[1].findAll("a")) if len(writer) > 1 else ""  # 编剧 如果小于1 返回空值
        movie_info['actor'] = get_list(soup.findAll(rel='v:starring'))  # 主演
        movie_info['type'] = get_list(soup.findAll(property='v:genre'<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值