利用Shell脚本去掉C/C++源码中的注释_shell 批量删除注释 cpp-CSDN博客

本文链接：https://blog.csdn.net/wustdatamining/article/details/7606031

网络的方便，为我们提供了共享的平台。比如源码的共享，既然有了很多优秀的源码，稍加改造就能为我们所用，这也是许多开源软件的目的之一吧。好吧，改造这样的源码，第一个问题注释问题。因为源码中的注释时常并不是我们想要的注释，比如有的注释不全，注释不完善等等。总之，就一个目的：我要去掉源码中的注释。

另一方面，Shell脚本的强大，我就不用多说了。今天就来说说如何利用Shell脚本去掉C/C++源码中的注释。有人可能会问：为啥只说c/c++的啊，别的干嘛不说？唉，抱歉，我的专项就是C/C++,会点Java还是老几年前的事了，这些源码的注释，还是交给Java方面的高手做吧。好，开始，我直接给出脚本源码，解释就放在源码中，具体如下：

#!/bin/bash
 
function del_comment_file()
{
    #delete the comment line begin with '//comment'
    sed -i "/^[ \t]*\/\//d" $file    #i选项表示直接对文件而不是副本操作
   
    #delete the commnet line end with '//comment'
    sed -i "s/\/\/[^\"]*//" $file
 
    #delete the comment only occupied one line '/* commnet */'
    sed -i "s/\/\*.*\*\///" $file
   
    #delete the comment that occupied many lines '/*comment
    #                                              *comment
    #                                              */
    sed -i "/^[ \t]*\/\*/,/.*\*\//d" $file
   
}
 
function del_comment()
{
    for file in `ls `; do   #取cd后的参数进行循环
        case $file in      
        *.c)                   #如果是.c文件，就直接调用
            del_comment_file
            ;;
        *.cpp)               #如果是.cpp文件，也直接调用
            del_comment_file
            ;;
        *.h)                   #如果是.h文件，同样直接调用
            del_comment_file
            ;;
        *)                      
            if [ -d $file ]; then     #如果是个目录
                cd $file      打开目录进行递归调用
                del_comment
                cd ..
            fi
        ;;
    esac
    done
}
 
#从第一个参数中获取源文件名或源文件目录
DIR=$1
if [ ! -e $DIR ]; then  //如果不存在
    echo "The file or directory does not exist."
    exit 1;
fi
 
#如果是一个文件
if [ -f $DIR ]; then
    file=`basename $DIR`   #去掉文件的后缀名
    if [[ `echo $DIR | grep /` == $DIR ]]; then
        cd `echo $DIR | sed -e "s/$file//"`  #将文件名中的前边部分全部用空换掉，s是替换的意思
        del_comment_file
    else
        del_comment_file
    fi
 
    exit 0;
fi
 
if [ -d $DIR ]; then     #如果是目录
    cd $DIR                 #打开目录，然后进入目录进行处理调用
    del_comment  
    exit 0;
fi

说句实话，我很想把上面的命令讲一下，可sed命令讲起来很费劲的，我都不知道怎么开始，算了，我把里边用到的几个放在下边，然后大家再对照看看就可以知道什么意思了,如下：
(1) 选项
a\:在当前行后面加入一行文本。
b lable:分支到脚本中带有标记的地方，如果分支不存在则分支到脚本的末尾。
c\:用新的文本改变本行的文本。
d:从模板块（Pattern space）位置删除行。
D:删除模板块的第一行。
i\:在当前行上面插入文本。
h:拷贝模板块的内容到内存中的缓冲区。
H:追加模板块的内容到内存中的缓冲区
g:获得内存缓冲区的内容，并替代当前模板块中的文本。
G:获得内存缓冲区的内容，并追加到当前模板块文本的后面。
l:列表不能打印字符的清单。
n:读取下一个输入行，用下一个命令处理新的行而不是用第一个命令。
N:追加下一个输入行到模板块后面并在二者间嵌入一个新行，改变当前行号码。
p:打印模板块的行。
P（大写）:打印模板块的第一行。
q:退出Sed。
r file:从file中读行。
t label:if分支，从最后一行开始，条件一旦满足或者T，t命令，将导致分支到带有标号的命令处，或者到脚本的末尾。
T label:错误分支，从最后一行开始，一旦发生错误或者T，t命令，将导致分支到带有标号的命令处，或者到脚本的末尾。
w file:写并追加模板块到file末尾。
W file:写并追加模板块的第一行到file末尾。
!:表示后面的命令对所有没有被选定的行发生作用。
s/re/string:用string替换正则表达式re。
=:打印当前行号码。
#:把注释扩展到下一个换行符以前。
以下的是替换标记:
g表示行内全面替换。
p表示打印行
w表示把行写入一个文件。
x表示互换模板块中的文本和缓冲区中的文本。
y表示把一个字符翻译为另外的字符（但是不用于正则表达式）
(2) 元字符集
^：锚定行的开始如：/^sed/匹配所有以sed开头的行。
$：锚定行的结束如：/sed$/匹配所有以sed结尾的行。
.：匹配一个非换行符的字符如：/s.d/匹配s后接一个任意字符，然后是d。
*：匹配零或多个字符如：/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。
[]：匹配一个指定范围内的字符，如/[Ss]ed/匹配sed和Sed。
[^]：匹配一个不在指定范围内的字符，如：/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头，紧跟ed的行。
$..$：保存匹配的字符，如s/$love$able/\1rs，loveable被替换成lovers。
&：保存搜索字符用来替换其他字符，如s/love/**&**/，love这成**love**。
\<：锚定单词的开始，如:/\<love/匹配包含以love开头的单词的行。
\>:锚定单词的结束，如/love\>/匹配包含以love结尾的单词的行。
x\{m\}：重复字符x，m次，如：/0\{5\}/匹配包含5个o的行。
x\{m,\}：重复字符x,至少m次，如：/o\{5,\}/匹配至少有5个o的行。
x\{m,n\}：重复字符x，至少m次，不多于n次，如：/o\{5,10\}/匹配5--10个o的行。