Linux北邮蒋砚军作业1

该博客介绍了如何使用正则表达式处理网页文件,去除HTML标签,然后通过awk命令筛选目标内容。博主详细阐述了利用sed命令进行时间日期格式替换的过程,包括将年月日转换为标准日期格式,并移除特定字符串。在实验中,博主遇到了忘记在正则表达式中转义斜杠的问题,并体验了使用vim编辑命令文件的挑战。
摘要由CSDN通过智能技术生成

正则表达式应用

实验思路

将文件中时间、地区及对应PM值锚定提取

将时间日期等通过正则表达式进行格式替换

实验步骤

  1. 原始网页文件中含有大量<*>标签内容将其除去

    cat webweather.txt| sed -e 's/<[^<>]*>/  /g' > simple.txt
    

在这里插入图片描述

  1. 将多个awk命令编写为文件flow.awk
    在这里插入图片描述

  2. 使用awk命令筛选目标内容

    awk -f flow.awk  simple.txt >getwea.txt
    

在这里插入图片描述

  1. 将多个命令写入文件,使用sed命令进行格式替换
s/年/-/g
s/月/-/g
s/日//g
s/时/:00:00/g
s/更新://g
s/μg\/m³//g
sed -f correct.cmd   getwea.txt > weather.txt

在这里插入图片描述

总结

​ 在使用正则表达式进行替换 ug/m^3 时 忘记对/ 前加转义字符,在实验中尝试使用vim编辑命令文件,有点不习惯,易手抖在编辑模式按左右键,通过实验尝试使用vim编辑、正则表达式等基本工具。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值