一些常用模块的简单介绍

目录

1,requests

2,bs4

3,pandas

4,os

5,time


1,requests

在 Python 中,requests 是一个第三方库,用于发送 HTTP 请求和处理响应。它提供了一组简单而优雅的 API,使得我们可以方便地发送 GET、POST、PUT、DELETE 等各种类型的请求,并且可以处理相应的状态码、响应头、响应体等信息,还能够支持代理、SSL 验证、cookie 管理等功能。

requests 库设计的初衷是为了更好地替代 Python 标准库中的 urlliburllib2 模块,它提供了更加简洁易用的 API,并且有着更好的性能和可读性。同时,它还提供了许多可选的插件和扩展模块,如 requests-cacherequests-oauthlibrequests-toolbelt 等,可以方便地扩展 requests 的功能。

由于 requests 库操作简单、易学易用,所以它现在已经成为了 Python 中最常用的网络请求库之一,广泛应用于各种场合,如爬虫、API 开发、数据采集等等。

以下是 requests 常用函数及其作用:

  1. requests.get(url, params=None, **kwargs):向指定的 url 发送一个 GET 请求,并返回一个 Response 对象。params 参数可用于传递查询参数,**kwargs 参数可用于传递更多关键字参数。(最最最常用)

  2. requests.post(url, data=None, json=None, **kwargs):向指定的 url 发送一个 POST 请求,并返回一个 Response 对象。data 参数可用于传递表单数据,json 参数可用于传递 JSON 数据,**kwargs 参数可用于传递更多关键字参数。

  3. requests.put(url, data=None, **kwargs):向指定的 url 发送一个 PUT 请求,并返回一个 Response 对象。data 参数可用于传递请求体数据,**kwargs 参数可用于传递更多关键字参数。

  4. requests.delete(url, **kwargs):向指定的 url 发送一个 DELETE 请求,并返回一个 Response 对象。**kwargs 参数可用于传递更多关键字参数。

  5. requests.request(method, url, **kwargs):使用指定的 HTTP 方法发送一个请求,并返回一个 Response 对象。method 参数为请求方法,如 GET、POST、PUT、DELETE 等,**kwargs 参数可用于传递更多关键字参数。

  6. Response.content:获取响应体的内容,以二进制形式返回。

  7. Response.text:获取响应体的内容,以字符串形式返回。

  8. Response.status_code:获取响应的状态码。

  9. Response.headers:获取响应头的信息,以字典形式返回。

  10. Response.json():将响应体的内容解析成 JSON 格式。

2,bs4

bs4 是一个用于解析 HTML 和 XML 文档的 Python 第三方库,可以方便地提取网页内容中的数据,例如抓取新闻、统计网页分析和数据挖掘等。

bs4 模块提供了多个函数用于解析和处理 HTML 和 XML 文档,以下是一些常用的函数及其作用:

  1. BeautifulSoup(markup, parser):将 HTML 或 XML 文档转换成一个复杂的树形结构,markup 参数为需要解析的文档内容,parser 参数为解析器类型。

  2. Tag.find(name, attrs, recursive, text, **kwargs):查找名为 name 的标签,并返回第一个匹配的标签对象。attrsrecursivetext 等参数可用于进一步精确匹配。

  3. Tag.find_all(name, attrs, recursive, text, limit, **kwargs):查找名为 name 的所有标签,并返回一个由标签对象组成的列表。limit 参数可指定最多返回多少个匹配的标签对象。

  4. Tag.select(css_selector):通过 CSS 选择器来查找标签,并返回一个由标签对象组成的列表。

  5. Tag.contents:获取当前标签的所有子节点,以列表形式返回。

  6. Tag.parent:获取当前标签的父节点。

  7. Tag.previous_siblingTag.next_sibling:获取当前标签的前一个和后一个兄弟节点。

  8. Tag.get(name, default):获取标签的属性值,如果没有对应的属性则返回 default

  9. Tag.string:获取标签内的文本内容。

 BeautifulSoup 则是 bs4 库中最为重要的类之一,它能够将 HTML 或 XML 文档转换为复杂的树形结构,并提供一系列的方法来搜索和操作文档中的元素。你可以通过 BeautifulSoup 类来轻松地对HTML 页面或者 XML 数据进行解析和处理。

下面是一个使用 BeautifulSoup 解析 HTML 页面的示例

from bs4 import BeautifulSoup
import requests

  # 请求页面
url = 'https://www.example.com'
response = requests.get(url)

  # 解析页面
soup = BeautifulSoup(response.text, 'html.parser')

  # 查找元素
title = soup.title.string
print(title)

以上代码中,使用 requests 库请求一个网页,然后使用 BeautifulSoup 类解析页面,并使用 title 属性获取页面的标题。这就是使用 from bs4 import BeautifulSoup 语句所能实现的功能。

总之,from bs4 import BeautifulSoup 帮助你在 Python 中使用 bs4 库的 BeautifulSoup 类,让你方便地解析处理 HTML 或 XML 页面,并提取其中的有用信息。

3,pandas

在 Python 中,pandas 是一种专门用于数据处理和分析的开源库。它基于 NumPy 数组库构建,提供了多种数据结构和数据分析工具,可以快速高效地进行数据清洗、转换和统计等操作,是 Python 数据科学领域中非常重要的一个工具之一。

pandas 的名称来自于英文中的 “panel data”,也就是面板数据的意思。面板数据是一种多维时序数据,一般包括三个维度:时间、实体(entity)、指标(indicator)。pandas 库正是为了处理这种类型的数据而诞生的,因此取名为 pandas

pandas 是 Python 中一种非常有用的数据处理和分析工具

pandas 主要提供了以下两种数据结构:

  1. Series:一维标记数组,用于存储一组连续的数据。类似于带标签的数组或字典。

  2. DataFrame:二维表格型数据结构,用于存储多组行列数据。类似于 SQL 表格或 Excel 电子表格。

除此之外,pandas 还提供了多种数据处理和分析工具,如数据读写、数据过滤、数据排序、数据统计、数据聚合等等。

以下是 pandas 中常用函数及其作用:

  1. pd.DataFrame(data, index, columns):创建一个 DataFrame 对象。data 参数为输入数据,可以是字典、二维数组或其他数据结构,index 参数为行索引,columns 参数为列索引。

  2. pd.Series(data, index):创建一个 Series 对象。data 参数为输入数据,可以是列表、数组或字典等类型,index 参数为标签索引。

  3. DataFrame.head(n=5)DataFrame.tail(n=5):返回前 n 行数据和后 n 行数据。

  4. DataFrame.shape:获取数据表格的形状,即行数和列数。

  5. DataFrame.info():展示数据表格的基本信息,包括索引、列名、数据类型和非空值个数等。

  6. DataFrame.describe():展示数据表格的统计信息,包括均值、标准差、最小值、最大值、25% 分位数、50% 分位数、75% 分位数等。

  7. DataFrame.dropna(axis):删除缺失值所在的行或列。axis 参数指定删除行或列,默认为删除行。

  8. DataFrame.fillna(value):将缺失值填充为指定的值。

  9. DataFrame.groupby(by):按照指定的列进行分组,可用于数据的聚合统计操作。

  10. DataFrame.merge(right, on, how):按照指定的列将两个数据表格进行连接。

4,os

在 Python 中,os 是一个与操作系统交互的库,可以用于访问和操作文件系统中的文件、目录、进程等信息。os 库是 Python 标准库中的一部分,在安装 Python 后就可以直接使用。

os 库提供了多种函数和常量,可以帮助我们完成以下任务:

  1. 文件路径相关操作:os.path 模块提供了多种函数,如 os.path.join()os.path.basename()os.path.dirname() 等,可以方便地进行文件路径的拼接、分割和获取等操作。

  2. 目录操作:os 库提供了多种函数,如 os.mkdir()os.rmdir()os.getcwd() 等,可以创建或删除目录,获取当前工作目录等操作。

  3. 文件操作:os 库提供了多种函数,如 os.rename()os.remove()os.stat() 等,可以重命名、删除、查询文件信息等操作。

  4. 系统信息:os 库提供了多种函数,如 os.nameos.getpid()os.cpu_count() 等,可以获取系统名称、当前进程 ID、CPU 数量等信息。

  5. 环境变量:os 库提供了多种函数,如 os.environos.getenv() 等,可以获取和设置环境变量。

通过使用 os 库,我们可以方便地访问和操作文件系统中的文件、目录、进程等信息,能够帮助我们更好地管理和维护我们的程序和数据。

常用的 os 函数如下:

  1. os.makedirs(name, mode=0o777, exist_ok=False):递归地创建目录。
  2. os.path.exists(path):检查给定路径是否存在。
  3. os.name:显示当前正在使用的操作系统名称。
  4. os.getcwd():获取当前工作目录路径。
  5. os.chdir(path):将当前工作目录更改为给定目录。
  6. os.listdir(path):返回指定路径下的文件和文件夹列表。
  7. os.mkdir(path):创建一个新目录。
  8. os.rmdir(path):删除指定空目录。
  9. os.removedirs(name):递归地删除目录。
  10. os.rename(src, dst):将文件或目录从旧名称更改为新名称。
  11. os.remove(path):删除指定文件。
  12. os.path.isfile(path):检查给定路径是否是一个文件。
  13. os.path.isdir(path):检查给定路径是否是一个目录。
  14. os.environ:提供系统环境变量的信息。
  15. os.getenv(key, default=None):获取指定环境变量名的值。
  16. os.system(command):在子shell中执行给定命令。

除了上述函数外,还有许多其他函数和常量,可以使用 help(os) 命令查看完整的文档和用法

(甭看这个,这玩意点进去全是英语的长篇大论,还不如直接在这里搜呢)

5,time

time 模块是 Python 标准库中提供了各种处理时间的函数和类的一个模块。

一些常用的 time 模块函数如下:

  1. time.time():返回当前时间的时间戳。
  2. time.localtime([secs]):将一个时间戳转换为当前时区的struct_time。如果参数未给,则将time.time()所得到的时间戳转换为struct_time。
  3. time.gmtime([secs]):和localtime()方法类似,但是它返回的是格林威治标准时间。
  4. time.sleep(secs):推迟调用线程的运行,secs指秒数。
  5. time.strftime(format[, t]):将以时间元组作为实参的 struct_time 表示的时间格式化为指定格式的字符串。
  6. time.strptime(string[, format]):根据指定的格式把一个时间字符串解析为时间元组。

总之,time 模块提供了一系列与时间相关的函数和类,可以帮助我们处理和计算时间、日期等信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值