shell 抓取网页解析网页 自动读取poj测试数据

shell实现抓取poj网页对内容解析将其中的测试数据放到以题目名称为文件名的文件中

使用方法:

#!/bin/bash
#################################
/*************************************************
Copyright:free
Author:wangkai
Date:2013-10-13
Description:从poj抓取网页,将网页中的输入数据自动
保存到题号开头的文件中。网页特点是http://poj.org/problem?id=1001
1001表示题号
shell抓取网页,解析内容,允许测试环境ubuntu 12.04
**************************************************/
#传入的第一个参数为题号
#################################
dir='data/'
mkdir $dir;
touch ${dir}file_html
#for((i=1010;i<=1020;i++));do
i=$1; #传入的第一个参数为题号
id=$i;
file_loc=${dir}${i};
echo $id
pre_html='http://poj.org/problem?id=';
html=${pre_html}${id}
wget $html -O data/file_html
FILE_CONTENT=`cat data/file_html`
FILE_CONTENT=${FILE_CONTENT#*<p class=\"pst\">Sample Input</p><pre class=\"sio\">} # 去除前缀
FILE_CONTENT=${FILE_CONTENT%%</pre><p class=\"pst\">Sample Output</p><pre class=\"sio\">*} # 去除后缀
# FILE_CONTENT=${FILE_CONTENT//'^M'/$'\n'}
echo $FILE_CONTENT >$file_loc
# dos2unix $id # 出现^M则安装dos2unix使用此命令进行转化
#done


更多关于我的信息请访问

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值