有文件file1,file2,把文件中每行作为一个元素,比较file1的元素合是否是file2的元素合的子集。
最笨的方法莫过于此:
用c++写个程序,分别将两个文件中的内容读入到两个list中。然后循环查找,file1中的某行是否不存在于file2中,如果存在这么一行,则file1不是file2的子集,若不存在,则file1是file2的子集。
算法其实很简单,重要的是人的生产力,c++写这个代码编译调试,至少要半个小时,说不准还会有隐含的bug。
shell作为unix下自带的脚本语言,用其编码效率较高,出错概率较少。在不追求执行速度的前提下,用shell编写的程序可以很快的实现我的需求。
对于这个需求,可以分为三种情况来处理:
1)如果两个文件内容一模一样。
diff file1 file2
echo $?
如果返回值为0,说明两个文件一样,file1当然是file2的子集了
2)现实并不都是像(1)中那么美好,所以需要下面的指令。
num1=$(cat file1 | wc -l)
num2=$(sort file1 file2| uniq -d | wc -l)
if [ $num1 -le $num2 ];then
文件1是文件2的子集
else
文件1不是文件2的子集
fi
3)第(2)种情况存在bug,就是file1中如果有相同的行,此方法会判断出错,不得已,还得靠某种算法才行
sort file1 > 1.txt
sort file2 > 2.txt
num=$(cat 2.txt| wc -l)
for((i=0;i<$num;i++))
do
if [ "$lineA"x == "$lineB"x ];then
read -u 3 lineA;
read -u 5 lineB;
elif [ "$lineB"x == `echo -e "$lineA/n$lineB" | sort | head -1`x ];then
read -u 5 lineB;
else
ret=1
echo "不等"
i=$num
fi
done 3<1.txt 5<2.txt
if [ $ret -eq 0 ]; then
echo "相等"
fi
综上,对于这个小程序,用c++是吃力不讨好,用shell才是物尽其用。