AWK中的字符串操作函数

    本节中的功能查看或更改一个或多个字符串的文本。
    gawk理解语言环境,并用字符而非字节进行所有字符串处理。对于一个字符可能由多个字节表示的语言环境,这一区别尤其重要。因此,例如,length()返回字符串中的字符数,而不是用于表示这些字符的字节数。同样, index()适用于字符索引,而不适用于字节索引。
示例

# cat file1 
1.2.3.4
1.2.3
1.2.3.4.5
# awk '{print length()}' file1
7
5
9

    这里的7表示字符数。那占用多少字节数呢?C中int类型占用4字节,示例中的 . 符号在ASCII中是第46号,占用1个字节。所以file1第1行应该占用19个字节。
    在下面的列表中,可选参数括在方括号([])中。有几个函数执行字符串替换;在sub()函数的描述中提供了完整的讨论,因为列表是按字母顺序显示的。
    那些特定于gawk的函数用磅符号(“#”)标记。它们在兼容模式下不可用。

gensub()

    格式:gensub(regexp, replacement, how [, target]) #
    在目标字符串target中搜索正则表达式regexp的匹配项。如果how是一个以’g’或’G’("global"的缩写)开头的字符串,则将所有regexp的匹配项更换为replacement。否则,将how视为指示要替换哪个regexp匹配项的数字。将小于1的数值视为1。如果未提供target,默认使用$0。返回修改后的字符串,作为函数的结果。原始的target字符串未修改。
示例

# gawk '
BEGIN{
    a = "abc debf"
    b = gensub("b", "g", 1, a)                        
    print b
}'
agc debf

# gawk '
BEGIN{
    a = "abc debf"
    b = gensub("b", "g", 2, a) 
    print b
}'
abc degf

    gensub()是一个通用的替换函数。它的目的是提供比标准sub()和gsub()函数更多的功能。
    gensub()提供了sub()或gsub()中不可用的附加功能:能够在替换文本中指定regexp的组件。这是通过在regexp中使用括号来标记组件,然后在替换文本中指定’\N’,其中N是1到9之间的数字。
示例

# gawk 'BEGIN{                         
    a = "abc def"
    b = gensub(/(.+) (.+)/, "\\2 \\1", "g", a)
    print b
}'
def abc

    与sub()一样,必须键入两个反斜杠才能将一个反斜杠放入字符串中。在替换文本中,序列“\0”表示整个匹配文本,字符“&”也表示整个匹配文本。
    以下示例显示如何使用第三个参数来控制待更改的regexp匹配项:

# echo a b c a b c |
> gawk '{ print gensub(/a/, "AA", 2) }'
a b c AA b c

    在这种情况下,$0是默认的目标字符串。gensub()返回新字符串作为结果,直接传递给print进行打印。
    由上面例子引深一下,可以进行简单的文档处理。
示例
    测试文档

# cat test
1.2.3.4
1.2.3
1.2.3.4.5
gtest1
gtest1 gtest2
test1

    将整个文档e字母换为a

# cat test|gawk '{
    a = gensub("e", "a", "g")
    print a                  
}'
1.2.3.4
1.2.3
1.2.3.4.5
gtast1
gtast1 gtast2
tast1

    当然,如果文档很大,肯定不能用cat了。
    如果how参数是不以“g”或“g”开头的字符串,或者是小于或等于零的数字,则只执行一次替换。如果how为零,gawk将发出警告消息。
如果regexp与target不匹配,则gensub()的返回值是target的原始未更改值。

gsub()

    格式:gsub(regexp, replacement [, target])
    搜索目标,找到所有最长、最左边、不重叠的匹配子串,并用replacement替换子串。gsub()中的“g”代表“global”,意思是全部替换。
示例

# echo "hello,Britain.hello,Britain" | awk {' gsub(/Britain/, "United Kingdom"); print '}
hello,United Kingdom.hello,United Kingdom

    将所有输入记录的字符串“Britain”替换为“United Kingdom”。
    gsub() 函数的作用是:返回替换的次数。如果省略要搜索和待更改的变量(target),则使用全部输入记录($0)。与sub()中一样,字符“&”和“\”是特殊的,第三个参数必须是可赋值的。
示例

# echo "hello,Britain.hello,Britain" | awk {' n=gsub(/Britain/, "United Kingdom"); print n'}
2
index()

    格式:index(in, find)
    在字符串in中查找字符串find的第一个匹配项,并返回该匹配项在in字符串中以find字符开头的位置。请考虑以下示例:

# awk 'BEGIN { print index("peanut", "an") }'
3

    如果find字符没有匹配项,index()返回值为0。
    对于BWK awk和gawk,在find中使用正则表达式常量是一个致命错误。其他实现允许,只需将正则表达式常量当作一个表示“$0~/regexp/”的表达式。
    什么是正则表达式常量呢?我找了找资料,应该在这里

length()

    格式:length([string])
    返回string中的字符数。如果string是数字,则返回表示该数字的数字字符串的长度。例如,长度(“abcde”)是5。相比之下,长度(1535)是3。在这个例子中,1535=525,525被转换成字符串“525”,它有三个字符。
示例

# awk 'BEGIN {print length(10)}'      
2
# awk 'BEGIN {print length(100)}'
3
# awk 'BEGIN {print length(15*35)}'
3

    如果未提供参数,length()将返回$0的长度。
    注意:在旧版本的awk中,length()函数可以在不带任何括号的情况下调用。尽管2008年的POSIX标准明确允许它支持历史版本,但这样做被认为是不好的实践。为了使程序具有最大的可移植性,请始终提供括号。
    如果使用尚未使用的变量调用length(),gawk将强制该变量为标量(scalar)。awk的其他实现使变量没有类型。

# gawk 'BEGIN { print length(x) ; x[1] = 1 }'
0
gawk: cmd. line:1: fatal: attempt to use scalar `x' as an array

# nawk 'BEGIN { print length(x) ; x[1] = 1 }'
0

    如果在命令行中指定了 --lint,gawk将对此发出警告。
    对于gawk和其他几个awk实现,当给定数组参数时,length()函数返回数组中元素的数量。这并不像最初看起来那么有用,因为数组不能保证从一个元素到其中元素的数量都有索引。如果在命令行上提供了–lint(请参阅Command-Line Options),gawk将警告传递数组参数是不可移植的。如果提供了 --posix,则使用数组参数是一个致命错误。

match()

    格式:match(string, regexp [, array])
    在string中搜索正则表达式regexp匹配的最长、最左边的子字符串,并返回该子字符串开始的字符位置(索引)(如果从string开始,则返回1)。如果找不到匹配项,则返回零。
    regexp参数可以是一个正则表达式常数(/… /)或字符串常量("… ")。在后一种情况下,该字符串被视为要匹配的正则表达式。有关两种形式之间的差异以及正确编写程序的含义的讨论,请参阅“ 使用动态正则表达式”部分。
    前两个参数的顺序与使用正则表达式的大多数其他字符串函数(如sub()和gsub())的顺序相反。记住,对于match(),顺序与“~”运算符相同:‘string ~ regexp’。
    match()函数的作用是:将预定义变量RSTART设置为索引。它还将预定义的变量RLENGTH设置为匹配子字符串的字符长度。如果找不到匹配项,则RSTART设置为零,RLENGTH设置为-1。
示例
    准备两个文件,分别放置awk命令和测试字符串

# cat match.awk 
{
    if ($1 == "FIND")
        regex = $2
    else {
        where = match($0, regex)
        if (where != 0)
            print "Match of", regex, "found at", where, "in", $0
       }
}

# cat test
FIND ru+n
My program runs
but not very quickly
FIND Melvin
JF+KM
This line is property of Reality Engineering Co.
Melvin was here.

    运行awk命令

# awk -f match.awk test
Match of ru+n found at 12 in My program runs
Match of Melvin found at 1 in Melvin was here.

    该程序查找与存储在变量regex中的正则表达式匹配的行。此正则表达式可以更改。如果一行中的第一个单词是’find’,regex更改为该行的第二个单词。
    如果array存在,则将其清除,然后array的第0个元素设置为与regexp匹配的字符串的整个部分。如果regexp包含圆括号,则array的整数索引元素将被设置为包含与相应的带圆括号子表达式匹配的string部分。例如:

# echo foooobazbarrrrr |
> gawk '{ match($0, /(fo+).+(bar*)/, arr)
>         print arr[1], arr[2] }'
foooo barrrrr

    此外,多维下标还提供了每个匹配子表达式的开始索引和长度:

# echo foooobazbarrrrr |
> gawk '{ match($0, /(fo+).+(bar*)/, arr)
>           print arr[1], arr[2]
>           print arr[1, "start"], arr[1, "length"]
>           print arr[2, "start"], arr[2, "length"]
> }'
foooo barrrrr
1 5
9 7

    每个带圆括号的子表达式的开始和索引可能都没有下标,因为它们可能都没有匹配的文本;因此,应该使用in运算符测试它们。
    match()的array参数是gawk扩展。在兼容模式下(请参阅“命令行选项”一节),使用第三个参数是一个致命错误。

split()

    格式:split(string, array [, fieldsep [, seps ] ])
    将字符串string分成由fieldsep分隔的片段,并将片段存储在array中,分隔字符串存储在seps数组中。第一块存储在array[1]中,第二块存储在array[2]中,以此类推。第三个参数fieldsep的字符串值是一个regexp,用于描述在何处拆分字符串(就像FS可以是一个regexp,用于描述在何处拆分输入记录一样)。如果省略fieldsep,则使用FS的值。split()返回创建的元素数。seps是gawk扩展,seps[i]是array[i]和array[i+1]之间的分隔字符串。如果fieldsep是一个空格,那么任何前导空格都将进入seps[0],任何后面的空格都将进入seps[n],其中n是split()的返回值(即数组中的元素数)。
    split()函数的作用是:将字符串分割成块,就像将输入行分割成字段一样。
示例

# awk 'BEGIN{split("cul-de-sac", a, "-", seps)
print a[1],a[2],a[3],seps[1],seps[2]}'
cul de sac - -

    使用“-”作为分隔符将字符串“cul-de-sac”拆分为三个字段。它设置数组a的内容如下:

a[1] = "cul"
a[2] = "de"
a[3] = "sac"

    并且按如下方式设置数组seps的内容:

seps[1] = "-"
seps[2] = "-"

    此调用返回的split()值为3。

# awk 'BEGIN{n=split("cul-de-sac", a, "-", seps)
print n}'                                     
3

    与输入字段拆分一样,当fieldsep的值为时 " ",在分配给数组元素的值中会忽略开头和结尾的空格,但不会在seps中将其忽略,并且元素之间由空格分隔。同样,与输入字段拆分一样,如果fieldsep是空字符串,则字符串中的每个单独字符都将拆分为自己的数组元素。此外,如果fieldsep是一个单字符字符串,则即使该字符串的值是一个正则表达式元字符,该字符串也将充当分隔符。
    但是,请注意,RS对split()的工作方式没有影响。即使 RS = “” 使换行符也成为输入字段分隔符,但这并不影响split()拆分字符串的方式。
    awk的现代实现,包括gawk,允许第三个参数是regexp常量(/…/)和字符串。有关使用字符串常量或regexp常量之间的区别以及正确编写程序的含义的讨论,请参阅使用动态regexp一节。
    在分割字符串之前,split()删除array数组和seps中任何先前存在的元素。
    如果string为null,则数组没有元素(因此,这是一种使用一个语句删除整个数组的可移植方法)。
    如果string根本不匹配fieldsep(但不为null),则array数组仅包含一个元素。该元素的值是string的原始值。
    在POSIX模式下,不允许使用第四个参数。

sub()

    格式:sub(regexp, replacement [, target])
    搜索target,被视为字符串,用于匹配正则表达式regexp最左边,最长的子字符串。通过使用replacement替换匹配的文本来修改整个字符串。修改后的字符串成为target的新值。返回所做替换的数目(0或1)。
    regexp的参数可以是一个正则表达式常数(/… /)或字符串常量("… ")。在后一种情况下,该字符串被视为要匹配的正则表达式。
    这个函数是特殊的,因为target不只是用来计算一个值,而且不只是任何表达式都可以—它必须是变量,字段或数组元素,以便sub()可以在其中存储修改后的值。如果省略此参数,则默认值使用并更改 $0。
示例

# awk 'BEGIN{str = "water, water, everywhere"
sub(/at/, "ith", str)
print str}'
wither, water, everywhere

    设置 str 为 ‘wither, water, everywhere’ ,将最左边最长的“at”替换为“ith”。
    如果replacement中出现特殊字符“&”,则表示regexp精确匹配的子字符串。(如果regexp可以匹配多个字符串,那么这个精确的子字符串可能会有所不同。)
示例

# awk 'BEGIN{str = "tcandidatecandidateest"             
sub(/candidate/, "& and his wife", str)     
print str}'
tcandidate and his wifecandidateest

    将每个输入行上第一个出现的“candidate”更改为“candidate and his wife”。另一个示例:

# awk 'BEGIN {
>         str = "daabaaa"
>         sub(/a+/, "C&C", str)
>         print str
> }'
dCaaCbaaa

    这显示了“&”如何表示非常量字符串,还演示了regexp匹配中的“最左、最长”规则。
    此特殊字符(“&”)的效果可以通过在字符串中的前一个反斜杠来关闭。像往常一样,要在字符串中插入一个反斜杠,必须写两个反斜杠。因此,在字符串常量中写入’\&’,以便在替换中包含一个文本’&’。例如,下面演示如何用“&”替换每行的第一个“|”:

# awk 'BEGIN {
        str = "the | character is |,not &"
        sub(/\|/,"\\&" , str)       
        print str
}'
the & character is |,not &

    如上所述,sub()第三个参数必须是变量,字段或数组元素。awk的某些版本允许第三个参数是不是左值的表达式。在这种情况下,sub()仍然搜索模式并返回0或1,但是替换的结果(如果有的话)被丢弃,因为没有地方放置它。
    最后,如果regexp不是正则表达式常量,则将其转换为字符串,然后将该字符串的值视为要匹配的正则表达式。

substr()

    格式:substr(string, start [, length ])
    返回string字符串中,长度、字符数最长匹配的一个子字符串,子字符串由start确定的字符数开始。子字符串的第一个字符的字符数为1。
示例

# awk 'BEGIN{s=substr("washington", 5, 3);print s}'
ing

    如果长度length不存在,则substr()返回从字符数start开始的字符串的整个后缀。例如,substr(“washington”,5)返回“ington”。如果长度length大于字符串中剩余的字符数(从start字符开始算起),则返回整个后缀。
    如果start小于1,substr()则将其视为1。如果start大于字符串中的字符数,则substr()返回空字符串。同样,如果存在length小于或等于零,则返回空字符串。
    substr() 无法分配由返回的字符串。因此,尝试更改字符串的一部分是错误的,如以下示例所示:

string = "abcdef"
# try to get "abCDEf", won't work
substr(string, 3, 3) = "CDE"

    使用substr()作为sub()或gsub()的第三个参数也是一个错误:

gsub(/xyz/, "pdq", substr($0, 5, 20))  # WRONG

    如果需要替换字符串的位和段,请按以下方式将substr()与字符串连接结合起来:

# awk 'BEGIN{
string = "abcdef"
string = substr(string, 1, 2) "CDE" substr(string, 6)
print string
}'
abCDEf
tolower()

    格式:tolower(string)
    返回string的副本,字符串中的每个大写字符均替换为其对应的小写字符。非字母字符保持不变。
示例

# awk 'BEGIN{
s=tolower("MiXeD cAsE 123")
print s}'
mixed case 123
toupper()

    格式:toupper(string)
    返回string的副本,该字符串中的每个小写字符均替换为其对应的大写字符。非字母字符保持不变。
示例

# awk 'BEGIN{
s=toupper("MiXeD cAsE 123")       
print s}'
MIXED CASE 123

在这里插入图片描述

参考文档

https://www.gnu.org/software/gawk/manual/html_node/String-Functions.html
https://metacpan.org/pod/Regexp::Constant

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值