wget爬虫方法

该文详细介绍了如何利用wget工具下载网站内容,包括整个子目录、特定目录以及整个网站。主要命令选项包括-c(断点续传)、-r(递归下载)、-np(不搜索上层目录)、-k(转换链接)等,适用于离线浏览和数据备份。
摘要由CSDN通过智能技术生成

1. 使用wget下载父目录下的整个子目录

wget -r --level=0 -E --ignore-length -x -k -p -erobots=off -np -N https://youtube.com(网站URL)

这条命令会下载远程服务器的整个文件夹到当前文件目录下。

2. 使用wget下载一个目录下的所有文件

wget -r -np -nH -R index.html https://youtube.com(网站URL)

-r:遍历所有子目录
-np:不到上一层子目录去
-nH:不要将文件保存到主机名文件夹
-R index.html:不下载index.html文件

3. 使用wget下载整个网站或特定目录

需要下载某个目录下面的所有文件:

wget -c -r -np -k -L -p https://youtube.com`(网站URL)

在下载时,有用到外部域名的图片或链接,如果需要同时下载就要用-H参数:

wget -np -nH -r --span-hosts https://youtube.com(网站URL)

4. 常见参数

-c:断点续传
-r:递归下载,下载指定网页某一目录下(包括子目录)的所有文件
-nd:递归下载是不创建一层一层的目录,把所有文件下载到当前目录
-np:递归下载时不搜索上层目录
-k:将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数
-L:递归时不进入其他主机
-p:下载网页所需的所有文件
-A:指定要下载的文件样式列表,多个样式用逗号分隔
-i:后面跟一个文件,文件内指明要下载的URL

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Balaaam

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值