目的描述
- 很多数据集的官方网页会给出数据下载连接
- 若这些数据连接都整合在一起了还好说,直接用一个连接下载就满足要求
- 若是分别列条目,每个条目一个连接,一个个下载将会是巨大的工作量(如下图所示)
- 这时该如何处理呢?
整体思路
- 首先要将所有的目标数据连接从网页中提取出来
- 然后利用wget批量下载即可
提取链接
- 直接使用已有的项目:网页可下载链接提取器 提取目标连接
- 将得到的链接存储在txt文件中,此处为:
dataset.txt
wget 批量下载
- 使用wget命令
wget -b -i dataset.txt
直接进行批量下载
文件批量重命名
- 文件名过于杂乱不利于后续处理
- 直接使用以下脚本进行批量重命名
#!/bin/bash
i=1
for file in `ls *.<Your file extention>`
do
echo $file
mv $file $(printf "%0.1d.<Your file extention>" $i)
i=$((i + 1))
done