考察awk。先贴代码(我把我内存超限的算法注释掉了):
# Read from the file file.txt and print its transposed content to stdout.
#!/bin/bash
#i=1;
#value=$(cat file.txt);
#j=$(echo "$value" | awk 'NR==1{print NF}');
#while [ $i -le $j ]
#do
# echo "$value" | awk -v x=$i 'ORS=" "{print $x}';
# let "i += 1";
# printf "\n";
#done
awk 'BEGIN{
i=1;
j=1;
while(getline < "file.txt") {
split($0, ft, " ");
while (j<=NF) {
array[j, i] = ft[j];
j = j + 1;
}
i = i + 1;
j = 1;
}
for (row=1;row<=NF;row++) {
for (column=1;column<i;column++) {
printf array[row, column];
if (column<i-1) printf " ";
}
printf "\n";
}
}
'
虽然第一种想法内存超了,但对我也很有意义,所以我想两种算法都讲一点思路。
方法一(内存超限):同时使用bash和awk
一、我想多次读file.txt,每次都用awk读一列,再修改ORS为空格(默认为换行),使这一列打印在一行。这可能就注定我会内存超限了。
二、有一个很有意思的问题,就是awk不能直接使用shell中的变量,所以我们需要这部分:
awk -v x=$i
如果直接
{print $i}
你会发现print语句打印出所有列,而不是第i列,说明awk得不到i的值!
三、还有个有意思的地方,即
echo "$value"
我之所以不直接在管道前用cat是想减少内存消耗来着,不过好像没用。这里如果没有双引号,那么value中的所有换行符都会消失,变为一行,即value的结构被破坏掉了。加上”“就是保护value的结构。在bash里,常常记得在变量取值时加上”“是个好习惯!
四、余下的地方,例如bash对空格很敏感,只有命令之后可以有空格;例如while语句的条件,中括号和第一个及最后一个变量间一定要有空格;awk的所有语句都要括在’ ‘之间…
方法二:仅用awk!
一、既然内存超限,说明只能读取一次文件,即只能使用一次awk。显然可以想到,用二维数组存储这个文件,然后转置输出就行了。而awk里有二维数组,语句非常简单。
二、那么如何将文件读进来变成二维数组呢?我从这篇文章学到了while按行读取文件,并按空格分割行,得到元素的方法:
while(getline < "file.txt") {
split($0, ft, " ");
while (j<=NF) {
array[j, i] = ft[j];
j = j + 1;
}
i = i + 1;
j = 1;
}
三、有趣的注意点:在awk里用print语句打印二维数组时,每一个元素都会被作为一个记录,所以每输出一个元素,会输出一个ORS,即换行符!那我们只要使用printf就可以了!相似的情况还在bash语句里,在bash语句里,printf相比于echo更能满足我们习惯的输出。
四、这里一定要用BEGIN,虽然原因我还不太肯定,但是不用BEGIN的话,执行脚本之后,还需要多ENTER一次,才输出结果。