使用urllib爬取网页内容

最新推荐文章于 2024-01-07 14:49:48 发布

玉娟啊

最新推荐文章于 2024-01-07 14:49:48 发布

阅读量542

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_43851069/article/details/103605564

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

urllib简介

用于处理一系列url的操作

urllib.request:用于爬取页面内容
urllib.parse:用于解析url

跟着顺序做即可

分析链接 http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50
关键词 kw
防止乱码 ie
pn 表示每页几行数据
导入我们使用到的包

import urllib.parse as up
import urllib.request as ur

根据刚刚的链接分析,定义字典存储需要使用到的参数

data = {
		'kw':'python‘，
		'ie':'utf-8',
		'pm':'200'  #第四页
		}

如果参数带有空格和特殊字符时使用.
当字符串数据以url的形式传递给web服务器时,字符串中是不允许出现空格和特殊字符的,所以我们需要对参数进行解码
将特殊字符转换为*%E5%B0%B1%E4%B8%9A%E5%89%8D%E6%99%AF*这样的形式
data_url=up.urlencode(data) #解码
data = up.unquote(data_url) #编码
请求链接

#data_url为刚编码后的数据
request = ur.Request('https://www.baidu.com/s?' + data_url)

获取页面
response = ur.urlopen(request).read()
将页面存至本地

with open('%s.html' % kw, 'wb') as f:
    f.write(response)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

玉娟啊

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫——使用urllib爬取网页

w_sunset的博客

11-26

6427

1.urlib库是python内置的http请求库，它可以看作处理url的组件集合。urllib库包含4大模块：（1）urllib.request:请求模块（2）urllib.error: 异常处理模块（3）urllib.parse:URL解析模块（4）urllib.robotparser:robots.txt解析模块下面是用urllib库爬取百度首页 import urllib.request # 导入urllib的请求模块request url = "http://www

Python爬虫（二）用Urllib快速爬取网页

justDoIt

05-28

1182

一、用Urllib快速爬取网页1. 爬取网页直接保存通过调用urllib.request.urlretrieve直接将爬取的网页保存到对应的文件中。filename = urllib.request.urlretrieve("http://www.baidu.com",filename = "e:/pythonchar/2.html") 2. 纯粹的爬取网页，简单思路如下：1、 ...

参与评论您还未登录，请先登录后发表或查看评论

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

最新发布

qq_46387472的博客

01-07

1762

urllib 库是 Python 内置的 HTTP 请求库，它可以看作处理 URL 的组件集合。urllib 库包含四大模块:(1)urllib.request: 请求模块。(2)urllib.error: 异常处理模块。(3)urllib.parse: URL 解析模块。( 4)urllib.robotparser: robots.txt 解析模块。urllib库是Python内置的HTTP请求库，用于处理URL和进行网页爬取。

python快速使用Urllib爬取网页

码云仓库地址：https://gitee.com/lance-gyq

11-10

525

import urllib.request（先导入Urllib模块） file=urllib.request.urlopen("http://www.baidu.com")（定义file变量，爬取百度网页） data=file.read() (读取网页全部内容) print(data) fhandle=open("E:/学习文件夹/python练习/2.html","wb"...

urllib爬取网页.py

12-26

python爬虫代码,rullib爬网页。 #读取一行 #data = response.readline() #读取文件的全部内容. 会把读取道德数据赋值给一个列表 #data = response.readlines() #返回当前环境的有关信息 #print...

python-快速使用urllib爬取网页（2-Headers属性）

沐雨金鳞

12-23

2133

有时候，我们无法爬取一些网页，出现403错误，因为这些网页为了防止别人恶意采集进行了一些反爬虫设置可是我们想爬取这些信息，怎么办？设置一些Headers属性，模拟成浏览器去访问这些网站，就解决了这个问题了首先我们要获得所要爬取网页的User-Agent信息在所要爬取的网页的地址栏里输入 about:version 我们就找到了用户代理的字符串信息我们将其复制出来形式如下所示：Mo

使用Urllib爬取网页的Python程序

02-17

以下是使用Python中的Urllib库进行网页爬取的示例程序： ```python import urllib.request # 指定要抓取的页面url url = "https://www.example.com/" # 打开url链接并读取页面内容 response = urllib.request....

urllib爬取网页

10-13

可以使用Python中的urllib库来爬取网页。具体步骤如下： 1. 导入urllib库中的request模块 2. 使用request模块中的urlopen函数打开网页链接 3. 读取网页内容并进行解码 4. 对解码后的内容进行处理以下是一个简单的...

【爬虫】01 urllib 爬取网页

菜鸟成长日记

03-07

234

import urllib.request response = urllib.request.urlopen('https://www.baidu.com/') data = response.readlines() print(data) # 返回当前环境有关信息 print(response.info()) # 返回状态码 200成功处理了请求 print(response.get...

Python3爬虫之urllib携带cookie爬取网页的方法

09-19

今天小编就为大家分享一篇Python3爬虫之urllib携带cookie爬取网页的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python3 使用urllib 爬取网页

walk on the road of linux

10-14

261

from urllib import request def down_html(url, fname): r = request.urlopen(url=url) with open(fname, 'wb') as fobj: while True: data = r.read(1024) if not data:...

Python爬虫学习之路（一）—— 使用Urllib爬取网页

musenll的博客

04-26

574

1.快速体验之最基础使用:urllib.request.urlopen(url)import urllib.request url = "https://m.weibo.cn/" file = urllib.request.urlopen(url) data = file.read() dataline = file.readline() print(data) 2.以网页的形式保存file =...

Python网络爬虫——使用Urllib爬取网页

靳先森的博客

08-06

1558

1、简介 urllib模块是python提供提供的一个用于操作URL的模块 2、使用第一步：用urllib快速爬去一个网页在此以百度为例，如下，答应出爬取到的网页的全部内容和一行内容。 # *-*coding:utf-8*-* from urllib import request file = request.urlopen("http://www.baidu.com") data...

爬虫入门实践之使用Urllib爬取网页

carson0408的博客

05-04

2492

在这个信息爆炸的时代，数据筛选和大数据分析是很重要的过程，而这一过程需要数据源，爬虫则可以获取大量数据源。本文则主要对爬取网页的过程做一个详细的介绍，有助于对爬虫知识的入门。 1.使用Urllib爬取网页 Urllib库是Python中用于操作URL、爬虫且具有强大功能的库。该库在Python2.x和Python3.x有一定的区别，本文使用的是Python2.x...

python-快速使用urllib爬取网页（小结）

沐雨金鳞

12-24

1075

1、Urllib是Python提供的一个用于操作URL的库 Python2.X中（Urllib库+Urllib2库） Python3.X中（Urllib库）2、基于URL标准对字符的严密要求，我们有时要进行编码解码处理3、有时爬取出现403错误时，有可能是所爬取的网站做了反爬虫处理4、由于urlopen（）不支持一些HTTP高级功能，所以，我们如果要修改报头，那么我们使用urllib.reque

【Python学习笔记】爬虫基础(urllib获取网页信息)

zjgmartin的博客

02-08

720

所用版本：Python 3.6 利用urllib.request.urlopen()获取指定网页的源代码，并存入一个对象中。用这个对象的read()和decode()方法进行读取和解码。urllib.request.urlopen()默认获取一个get请求的响应，如果使用data参数，则为post请求。为了应对某些网站的反爬机制，需要程序伪装成真实用户，封装一个请求对象。 # -*- coding: utf-8 -*- import urllib.request import

【Python 网络爬虫】使用 urllib 爬取网页源码、图片和视频

小发菜

12-21

3364

本文主要介绍了使用urllib结合基础知识爬取网页源代码，图片和视频。

01Python爬虫---快速使用Urllib爬取网页

冰棒的博客

12-18

1152

环境使用python3.5 import urllib.request # 导入模块一、采用获取网页信息，然后再写入文件中 1、将获取的网页信息 file = urllib.request.urlopen("http://www.baidu.com") data = file.read() # 读取网页全部内容赋值给一个字符串变量 dataline = file.re