网络的方便,为我们提供了共享的平台。比如源码的共享,既然有了很多优秀的源码,稍加改造就能为我们所用,这也是许多开源软件的目的之一吧。好吧,改造这样的源码,第一个问题注释问题。因为源码中的注释时常并不是我们想要的注释,比如有的注释不全,注释不完善等等。总之,就一个目的:我要去掉源码中的注释。
另一方面,Shell脚本的强大,我就不用多说了。今天就来说说如何利用Shell脚本去掉C/C++源码中的注释。有人可能会问:为啥只说c/c++的啊,别的干嘛不说?唉,抱歉,我的专项就是C/C++,会点Java还是老几年前的事了,这些源码的注释,还是交给Java方面的高手做吧。好,开始,我直接给出脚本源码,解释就放在源码中,具体如下:
#!/bin/bash
function del_comment_file()
{
#delete the comment line begin with '//comment'
sed -i "/^[ \t]*\/\//d" $file #i选项表示直接对文件而不是副本操作
#delete the commnet line end with '//comment'
sed -i "s/\/\/[^\"]*//" $file
#delete the comment only occupied one line '/* commnet */'
sed -i "s/\/\*.*\*\///" $file
#delete the comment that occupied many lines '/*comment
# *comment
# */
sed -i "/^[ \t]*\/\*/,/.*\*\//d" $file
}
function del_comment()
{
for file in `ls `; do #取cd后的参数进行循环
case $file in
*.c) #如果是.c文件,就直接调用
del_comment_file
;;
*.cpp) #如果是.cpp文件,也直接调用
del_comment_file
;;
*.h) #如果是.h文件,同样直接调用
del_comment_file
;;
*)
if [ -d $file ]; then #如果是个目录
cd $file 打开目录进行递归调用
del_comment
cd ..
fi
;;
esac
done
}
#从第一个参数中获取源文件名或源文件目录
DIR=$1
if [ ! -e $DIR ]; then //如果不存在
echo "The file or directory does not exist."
exit 1;
fi
#如果是一个文件
if [ -f $DIR ]; then
file=`basename $DIR` #去掉文件的后缀名
if [[ `echo $DIR | grep /` == $DIR ]]; then
cd `echo $DIR | sed -e "s/$file//"` #将文件名中的前边部分全部用空换掉,s是替换的意思
del_comment_file
else
del_comment_file
fi
exit 0;
fi
if [ -d $DIR ]; then #如果是目录
cd $DIR #打开目录,然后进入目录进行处理调用
del_comment
exit 0;
fi
说句实话,我很想把上面的命令讲一下,可sed命令讲起来很费劲的,我都不知道怎么开始,算了,我把里边用到的几个放在下边,然后大家再对照看看就可以知道什么意思了,如下:
(1) 选项
a\:在当前行后面加入一行文本。
b lable:分支到脚本中带有标记的地方,如果分支不存在则分支到脚本的末尾。
c\:用新的文本改变本行的文本。
d:从模板块(Pattern space)位置删除行。
D:删除模板块的第一行。
i\:在当前行上面插入文本。
h:拷贝模板块的内容到内存中的缓冲区。
H:追加模板块的内容到内存中的缓冲区
g:获得内存缓冲区的内容,并替代当前模板块中的文本。
G:获得内存缓冲区的内容,并追加到当前模板块文本的后面。
l:列表不能打印字符的清单。
n:读取下一个输入行,用下一个命令处理新的行而不是用第一个命令。
N:追加下一个输入行到模板块后面并在二者间嵌入一个新行,改变当前行号码。
p:打印模板块的行。
P(大写):打印模板块的第一行。
q:退出Sed。
r file:从file中读行。
t label:if分支,从最后一行开始,条件一旦满足或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾。
T label:错误分支,从最后一行开始,一旦发生错误或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾。
w file:写并追加模板块到file末尾。
W file:写并追加模板块的第一行到file末尾。
!:表示后面的命令对所有没有被选定的行发生作用。
s/re/string:用string替换正则表达式re。
=:打印当前行号码。
#:把注释扩展到下一个换行符以前。
以下的是替换标记:
g表示行内全面替换。
p表示打印行
w表示把行写入一个文件。
x表示互换模板块中的文本和缓冲区中的文本。
y表示把一个字符翻译为另外的字符(但是不用于正则表达式)
(2) 元字符集
^:锚定行的开始 如:/^sed/匹配所有以sed开头的行。
$:锚定行的结束 如:/sed$/匹配所有以sed结尾的行。
.:匹配一个非换行符的字符 如:/s.d/匹配s后接一个任意字符,然后是d。
*:匹配零或多个字符 如:/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。
[]:匹配一个指定范围内的字符,如/[Ss]ed/匹配sed和Sed。
[^]:匹配一个不在指定范围内的字符,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头,紧跟ed的行。
\(..\):保存匹配的字符,如s/\(love\)able/\1rs,loveable被替换成lovers。
&:保存搜索字符用来替换其他字符,如s/love/**&**/,love这成**love**。
\<:锚定单词的开始,如:/\<love/匹配包含以love开头的单词的行。
\>:锚定单词的结束,如/love\>/匹配包含以love结尾的单词的行。
x\{m\}:重复字符x,m次,如:/0\{5\}/匹配包含5个o的行。
x\{m,\}:重复字符x,至少m次,如:/o\{5,\}/匹配至少有5个o的行。
x\{m,n\}:重复字符x,至少m次,不多于n次,如:/o\{5,10\}/匹配5--10个o的行。