python自动化编程--web抓取信息

目录

一.webbrowser模块

1.sys.argv处理命令行参数

 2.pypeclip.paste()处理剪贴板内容

二.reguests模块从web下载文件

1.用requests.get()函数下载一个网页

2.raise_for_status()检查错误

3.将下载的文件保存到硬盘

三.BeautifulSoup模块解析HTML内容

1.从HTML创建一个BeatifulSoup文件 

2.select()方法寻找元素

3.get获取元素属性

四.selenium模块控制浏览器

1.启动selenium控制的浏览器

2.在页面寻找元素

3.点击页面

4.点击浏览器按


一.webbrowser模块

webrowser是python自带的模块,该模块的open()函数可以启动一个浏览器,打开指定的URL网址

import webbrowser
webbrowser.open('https://www.csdn.net/')

1.sys.argv处理命令行参数

sys模块用于读入可能的命令行参数,sys.argv变量保存了程序文件名和命令行参数的列表

 2.pypeclip.paste()处理剪贴板内容

 如果没有参数,可以将要访问的地址保存到剪贴板,然后通过pypeclip.paste()获取地址赋值给URL

import pyperclip
import webbrowser
dress=pyperclip.paste()  #读取剪贴板内容
webbrowser.open(dress)

二.reguests模块从web下载文件

requests模块可以从web下载想要的内容,但要调用这个模块要先pip install requests安装

1.用requests.get()函数下载一个网页

requeste模块的get()函数可以接受一个要下载的URL字符串,requests对象的status_code属性可以检查对这个页面的请求是否成功,如果该值等于requests.code.ok表示请求成功

import requests
res=requests.get('https://www.csdn.net/')
if res.status_code==requests.codes.ok:
    len_end=len(res.text)
    print(res.text[:len_end])
else:
    print('请求错误!')

请求csdn页面,如果请求成功就下载页面代码

2.raise_for_status()检查错误

requests属性的status_code属性可以检查页面请求是否正确,还有一个更简单的方法,就是在requests对象上调用raise_for_status()方法

所以如上的代码可以表示为:

import requests
res=requests.get('https://www.csdn.net/')
try:
    res.raise_for_status()
except Exception:
    print('请求错误!')

3.将下载的文件保存到硬盘

向open()函数第二个参数传入‘wb’表示用二进制形状打开文件,然后才可以用write()方法写入磁盘

iter_conten()方法在循环的每次迭代中返回一段内容

import requests
res=requests.get('https://www.csdn.net/')
file=open(
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

前段被迫创业

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值