Python爬取网页:爬取的网页为http://www.tedu.cn 保存的文件名为/tmp/tedu.html

最新推荐文章于 2023-07-26 10:00:00 发布

彭淦淦

最新推荐文章于 2023-07-26 10:00:00 发布

阅读量495

点赞数

分类专栏： Devops Python 爬取

彭淦淦

本文链接：https://blog.csdn.net/weixin_45843450/article/details/106443341

版权

Python 同时被 3 个专栏收录

47 篇文章 2 订阅

订阅专栏

Devops

15 篇文章 0 订阅

订阅专栏

爬取

2 篇文章 0 订阅

订阅专栏

4.1 问题
编写一个get_web.py脚本，实现以下功能：

爬取的网页为http://www.tedu.cn
保存的文件名为/tmp/tedu.html
4.2 方案
导入sys模块，用sys.argv方法获取get_web函数实参，让用户在命令行上提供http://www.tedu.cn和/tmp/tedu.html两个参数，调用get_web函数实现如下功能：

1)导入urllib模块，使用urllib模块的urlopen函数打开url（即网址），赋值给html

2)以写方式打开/tmp/tedu.html文件

3)以循环方式：

读html获取的数据，保存到data

将data写入/tmp/tedu.html

4)关闭html

4.3 步骤
实现此案例需要按照如下步骤进行。

步骤一：编写脚本

[root@localhost day11]# vim get_web.py
#!/usr/bin/env python3
import sys
from urllib.request import urlopen
def get_web(url, fname):
    html = urlopen(url)    #使用urllib模块的urlopen函数打开url，赋值给html
    with open(fname, 'wb') as fobj:
        while True:
            data = html.read(4096)
            if not data:
                break
            fobj.write(data)
    html.close()
if __name__ == '__main__':
    get_web(sys.argv[1], sys.argv[2])        #让用户在命令行上提供网址和下载数据保存位置

步骤二：测试脚本执行

[root@localhost day11]# python3 get_web.py http://www.tedu.cn /tmp/tedu.html
[root@localhost day11]# cat /tmp/tedu.html
执行cat命令可以看到/tmp/tedu.html文件中爬取到的内容