python自动化编程--web抓取信息_python webbrowser模块-CSDN博客

本文链接：https://blog.csdn.net/weixin_63009369/article/details/128650148

一.webbrowser模块

1.sys.argv处理命令行参数

2.pypeclip.paste()处理剪贴板内容

二.reguests模块从web下载文件

1.用requests.get()函数下载一个网页

2.raise_for_status()检查错误

3.将下载的文件保存到硬盘

三.BeautifulSoup模块解析HTML内容

1.从HTML创建一个BeatifulSoup文件

一.webbrowser模块

webrowser是python自带的模块，该模块的open()函数可以启动一个浏览器，打开指定的URL网址

import webbrowser
webbrowser.open('https://www.csdn.net/')

1.sys.argv处理命令行参数

sys模块用于读入可能的命令行参数，sys.argv变量保存了程序文件名和命令行参数的列表

2.pypeclip.paste()处理剪贴板内容

如果没有参数，可以将要访问的地址保存到剪贴板，然后通过pypeclip.paste()获取地址赋值给URL

import pyperclip
import webbrowser
dress=pyperclip.paste()  #读取剪贴板内容
webbrowser.open(dress)

二.reguests模块从web下载文件

requests模块可以从web下载想要的内容，但要调用这个模块要先pip install requests安装

1.用requests.get()函数下载一个网页

requeste模块的get()函数可以接受一个要下载的URL字符串，requests对象的status_code属性可以检查对这个页面的请求是否成功，如果该值等于requests.code.ok表示请求成功

import requests
res=requests.get('https://www.csdn.net/')
if res.status_code==requests.codes.ok:
    len_end=len(res.text)
    print(res.text[:len_end])
else:
    print('请求错误！')

请求csdn页面，如果请求成功就下载页面代码

2.raise_for_status()检查错误

requests属性的status_code属性可以检查页面请求是否正确，还有一个更简单的方法，就是在requests对象上调用raise_for_status()方法

所以如上的代码可以表示为：

import requests
res=requests.get('https://www.csdn.net/')
try:
    res.raise_for_status()
except Exception:
    print('请求错误！')

3.将下载的文件保存到硬盘

向open()函数第二个参数传入‘wb’表示用二进制形状打开文件，然后才可以用write()方法写入磁盘

iter_conten()方法在循环的每次迭代中返回一段内容

import requests
res=requests.get('https://www.csdn.net/')
file=open(