python3 --- 基于requests + beautifulsoup 实现爬虫项目

python3 — 基于requests + beautifulsoup 实现网页信息的抓取

前面我已经在博客中已经讲解了 requests 、 beautifulsoup 库的具体使用方法。

如果还不懂可以去我的博客园瞧一瞧,下面就是两个库的超链接,可点开学习!

requests 讲解链接

beautifulsoup 讲解

接下来我们就一起来实战练习下

一、项目简述:

1.内容:抓取广东工业大学华立学院图书馆官网的新书推荐,保存所有新书的书名。

2.目标网站:http://library.hualixy.com/index.php?g=portal&m=list&a=index&id=79

3.编程软件:pycharm(社区、专业版均可)

4.使用 python 3.7版本

5.涉及的 python库名称:requests 、 beautifulsoup

二、具体方法:

1.导入库

import  requests
from bs4 import BeautifulSoup

2.简单分析目标网站,获得请求头,防止爬虫被网页隔断。
在这里插入图片描述
3.找到了请求头,就可以用requests.get ( ) 方法后可以伪装浏览器登陆啦。

#循环访问所有页数 number
def get_html(number):
    #伪装浏览器访问
    headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
    
    url = 'http://library.hualixy.com/index.php?g=Portal&m=List&a=index&id=79&p='+str(number)
    response = requests.get(url,headers = headers)
    response.encoding = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值