pyhton爬虫urllib常用库函数

最新推荐文章于 2024-05-02 06:55:01 发布

克莱默申克

最新推荐文章于 2024-05-02 06:55:01 发布

阅读量225

点赞数

分类专栏：爬虫部分文章标签： python

本文链接：https://blog.csdn.net/weixin_45485072/article/details/105989980

版权

爬虫部分专栏收录该内容

4 篇文章 0 订阅

订阅专栏

下面以百度首页为例,介绍python自带的request库
urllib库中几个函数


from urllib import request
from urllib import parse
resp= request.urlopen("http://www.baidu.com")
**#urlopen抓取网站上所有源代码 ''按住ctrl+b 与鼠标点击可迅速得到函数原型，返回文件句柄对象**
request.urlretrieve('https://baidu.com','D:\\Gest\\crawler\\bd.html')
#urlretrieve方法将网页文件 下载到本地存储

print(resp.readline())
#打印出来，redline(),readlines(),读取多行

urlencode在parse中
url转换（作用）

params=('name':'as',"age":18)
result=parse.urlencode(params)

url中不能有中文字符，所以把中文部分用字典暂存，在拼接

url1="https://www.baidu.com/s"
params2={"wd":"猫"}
qs=parse.urlencode(params2)
url1=url1+ '?'+qs#拼接
#qs保存编码后的结果

parse_qs函数解码

获取状态码

data=request.urlopen(url1)
print(data.read())
print(resp.getcode())

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

克莱默申克

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例

杨秀璋的专栏

09-30

2万+

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家。第四篇文章将开启网络爬虫之旅，首先介绍基础知识及正则表达式的爬虫，希望对您有所帮助，文章中不足之处也请海涵。

Python爬虫库推荐，建议收藏留用

veratata的博客

01-10

1033

Python学习网络爬虫主要分3个大的版块：抓取，分析，存储当我们在浏览器中输入一个url后回车，后台会发生什么？简单来说这段过程发生了以下四个步骤： •查找域名对应的IP地址。 •向IP对应的服务器发送请求。 •服务器响应请求，发回网页内容。 •浏览器解析网页内容。那么学习爬虫需要掌握哪些库？

参与评论您还未登录，请先登录后发表或查看评论

python爬虫库函数大全-Python爬虫学习:一些库

weixin_39901439的博客

11-11

790

urllib库urlopen函数：在Python3的urllib库中，所有和网络请求相关的方法，都被集到urllib.request模块下面了，以先来看下urlopen函数基本的使用：from urllib importrequestresp= request.urlopen("http://www.baidu.com")print(resp.read())实际上，使用浏览器访...

Python学习总结（四）——网络爬虫urllib库函数

IM_GD

01-23

524

#coding=utf-8 '''import urllib b=urllib.urlopen('http://www.baidu.com') b.read()''' ''' Urllib是python内置的HTTP请求库包括以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse

Urllib库的基本使用

持之以恒！

09-13

607

爬取网页爬取网页其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。 from urllib import request

urllib库-内置函数

weixin_44737646的博客

12-05

258

urllib库：python中一个最基本的网络请求库，可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回数据 urlertrieve函数作用：这个函数可以方便的将网页的文件保存到本地格式：ulrlib.request.utlertieve(图片地址,保存路径) 比如：爬取一张图片 from urllib import request request.urlretrieve(...

urllib库常用的几个函数

、Lu的博客

07-02

9253

1. urlopen函数在Python3的urllib库中，所有和网络请求相关的方法，都被集到urllib.request模块下面了，以先来看下urlopen函数基本的使用： from urllib import request resp = request.urlopen('http://www.baidu.com') print(resp.read()) 实际上，使用浏览器访问百度，右键查看源代码。你会发现，跟我们刚才打印出来的数据是一模一样的。也就是说，上面的三行代码就已经帮我们把百度的首

pyhton爬虫基础（六）urllib中的urlopen

2303_77841383的博客

06-04

1007

学习爬虫，最初的操作便是模拟浏览器向服务器发出请求。我们只需要关心请求的链接是什么，需要的参数是什么，以及如何设置可选的请求头就行了，不需要深入了解它是怎样传输和通信的。

python爬虫基础库之urllib

Mr_Amnesia的博客

11-27

381

引入工欲善其事，必先利其器。想要写爬虫去获取数据，前提是先要对写爬虫需要用到的工具有足够的了解，这样才能有最大的可能实现需求。这篇文章的两位主角就是在做爬虫是处理网络请求时最基本、常用的工具（当然python处理网络请求不止这两个库）。 ...

2024年最新Python爬虫抓取智联招聘（基础版）

最新发布

2401_84584763的博客

05-02

837

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

解决python3爬虫无法显示中文的问题

09-20

python3urllib常见使用_Python3 urllib库常用方法

weixin_39859819的博客

11-30

'''GET请求方式POST请求方式超时timeout,异常处理响应类型(响应码,响应头...)POST请求添加Headers代理方法cookie添加读取---------- parse 包下 -----------urlparse 解析网址urlunparse 拼接网址urlencode GET参数化(比较有用)'''import urllib.requestimport urllib.par...

Python常用标准库 --- urllib与urllib2

xiaosong的博客

03-03

836

转自：http://lizhenliang.blog.51cto.com/7876557/1872538 打开URL。urllib2是urllib的增强版，新增了一些功能，比如Request()用来修改Header信息。但是urllib2还去掉了一些好用的方法，比如urlencode()编码序列中的两个元素（元组或字典）为URL查询字符串。一般情况下这两个库结合着用，那我

python urllib库使用

_compiling的博客

07-07

1675

urllib是python的内置库，在编写爬虫时经常会使用到，本文介绍urllib库的一些常用方法。

python爬虫库函数大全-Python爬虫学习：Python内置的爬虫模块urllib库

weixin_39705435的博客

11-11

218

urllib库urllib库是Python中一个最基本的网络请求的库。它可以模拟浏览器的行为发送请求（都是这样），从而获取返回的数据urllib.request在Python3的urllib库当中，所有和网络请求相关的方法都被集成到了urllib.request模块下#基本使用from urllib importrequestresp= request.urlopen("URL&quot...

Python 网络爬虫的常用库汇总

lamehd的博客

09-26

285

爬虫的编程语言有不少，但 Python 绝对是其中的主流之一。今天就为大家介绍下 Python 在编写网络爬虫常常用到的一些库。请求库：实现 HTTP 请求操作 urllib：一系列用于操作URL的功能。 requests：基于 urllib 编写的，阻塞式 HTTP 请求库，发出一个请求，一直等待服务器响应后，程序才能进行下一步处理。 selenium：自动化测试工...

Python爬虫常用函数说明

weixin_30791095的博客

06-11

505

1.urllib2.urlopen(url,data,timeout) 第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。第二三个参数是可以不传送的，data默认为空None，timeout默认为socket._GLOBAL_DEFAULT_TIMEOUT 2.import urllib2 request=urllib2.Re...

Python爬虫常用库、模块、类、函数积累（更新ing）

weixin_45531423的博客

11-22

1114

urllib库 Python中的自带库，用来模拟HTTP发送请求 requests库第三方库，使用前先进行安装。 requests和urllib功能类似，用来模拟HTTP发送请求。requests是对urllib的再次封装，requests可以直接构建常用的get和post请求并发起，urllib一般要先构建get或者post请求，然后再发起请求。 request库的7个主要方法：方法...

requests库常用函数使用——爬虫基础（1）

红目香薰

01-15

762

requests库常用函数使用——爬虫基础（1） requests库位置: 步骤1、先输出，根据输出保存一个【cookies.txt】文件步骤二、更换格式步骤三、#LWP-Cookies-2.0格式演示代码 requests基本使用 requests基础请求 requests请求测试 headers解析 headers位置 requests返回结果返回字符串修改返回字符串编码格式响应结果涉及函数文件保存返回json https证书异常动态IP代理

python爬虫urllib设置代理proxy

07-15

您可以使用urllib库设置代理proxy来进行Python爬虫。以下是一个示例： ```python import urllib.request # 设置代理 proxy_handler = urllib.request.ProxyHandler({'http': 'http://proxy_ip:port', 'https': 'http://proxy_ip:port'}) opener = urllib.request.build_opener(proxy_handler) urllib.request.install_opener(opener) # 使用代理进行请求 response = urllib.request.urlopen('http://www.example.com') print(response.read()) ``` 在上述示例中，您需要将`proxy_ip`和`port`替换为实际的代理服务器IP地址和端口号。这样，使用`urlopen`函数进行HTTP请求时，就会通过设置的代理进行访问。请注意，如果您的代理服务器需要验证身份（用户名和密码），可以使用`ProxyBasicAuthHandler`来设置代理验证信息。您还可以根据需要进行其他高级配置，例如设置请求头、超时时间等。