python: url

最新推荐文章于 2024-08-06 11:55:39 发布

CanuxCheng

最新推荐文章于 2024-08-06 11:55:39 发布

阅读量305

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wowotouweizi/article/details/45245495

版权

python 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

python中的web开发

###################################################################

url模块：

python3中是urllib模块，在python2中有四个模块：

urllib

urlparse

urllib2

robotparser

url用来写ftp和http等的客户端。

url的格式：

prot_sch://net_loc/path;params?query#frag

prot_sch：http、https、ftp

net_loc格式： user:passwd@host:port

path：斜杠限定文件活CGI应用程序的路径

params：可选参数

query：连接符&连接键值对

frag：拆分文档中的特殊锚

########################

urlparse模块的内建函数：

urlparse(url, scheme='',allow_fragments=True)：

解析一个url，返回一个六个参数的元祖：

(scheme, netloc, path, params, query,fragment)

urlunparse(data)：拼合一个六元祖成一个url。

urljoin(base, url, allow_fragments=True)：

将base和url拼成一个完整的url。

urldefrag(url)：移除url中的零部件。

urlsplit(url, scheme='',allow_fragments=True)：

将一个url解析成一个五元祖：

(scheme, netloc, path, query, fragment)

urlunsplit(data)：

将一个五元祖合并成一个url

########################

urllib模块的内建函数：

urlopen(url, data=None, proxies=None,context=None):

打开一个指定的url与web连接，返回文件类的对象。

urlopen返回的文件类对象的方法：

close()：关闭url的连接

fileno():返回文件类对象的文件句柄

read（[nbytes]）：从文件类对象读出nbytes字节数据

readline():从文件类对象读出一行

readlines():从文件类对象读出所有行

info()：获取文件类对象的MIME头文件

geturl()：返回文件类对象打开的真正url

getcode()：获取总字节数

next()：读下一行

urlretrieve(url,filename=None,reporthook=None,data=None,context=None)：

将url定位到html文件下载到你本地的硬盘，返回下载数据的本地文件名和对web服务器相应后返回的一系列MIME头文件组成的二元祖（filename,mime_hdrs）

quote(s, safe='/')

unquote(s)

quote_plus(s, safe='')

unquote_plus(s)

urlencode(query, doseq=0)

###################################################################

import requests

一个http的客户端库。

response= requests.get(url, **kwargs)

response.content

response.text

response.json

response.encoding

response.header

response.url

response.status_code

response.raise_for_status()

head

put

post

delete

###################################################################

from bs4 import BeautifulSoup (第三方模块）

BeautifulSoup 是html的解析器.

#传入从url获取的text.

soup = BeautifulSoup(markup='',features=None, builder=None, parse_only=None, from_encoding=None, **kwargs)

soup = BeautifulSoup(response.text)

soup.title #打印title

#返回一个unicode字符串。

soup.get_text(self, separator=u'',strip=False, types=(<class 'bs4.element.NavigableString'>, <class'bs4.element.CData'>))

soup.prettify()

##############################################

twisted

异步网络编成框架。

##############################################

import paramiko (第三方)

一个SSH2的工具

##############################################

feedparser (第三方)

一个RSS/Atom解析工具

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。