使用urllib爬取网页内容

urllib简介

用于处理一系列url的操作

  • urllib.request:用于爬取页面内容
  • urllib.parse:用于解析url

跟着顺序做即可

  • 分析链接 http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50
    关键词 kw
    防止乱码 ie
    pn 表示每页几行数据
  • 导入我们使用到的包
import urllib.parse as up
import urllib.request as ur
  • 根据刚刚的链接分析,定义字典存储需要使用到的参数
data = {
		'kw':'python‘,
		'ie':'utf-8',
		'pm':'200'  #第四页
		}
  • 如果参数带有空格特殊字符时使用.
    当字符串数据以url的形式传递给web服务器时,字符串中是不允许出现空格和特殊字符的,所以我们需要对参数 进行解码
    将特殊字符转换为*%E5%B0%B1%E4%B8%9A%E5%89%8D%E6%99%AF*这样的形式
    data_url=up.urlencode(data) #解码
    data = up.unquote(data_url) #编码

  • 请求链接

#data_url为刚编码后的数据
request = ur.Request('https://www.baidu.com/s?' + data_url)
  • 获取页面
    response = ur.urlopen(request).read()
  • 将页面存至本地
with open('%s.html' % kw, 'wb') as f:
    f.write(response)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值