最近在开发gecco的开源爬虫时混淆了正则表达的部分匹配和完全匹配的概念,记录一下。
java的正则表达式有个很容易混淆的概念,部分匹配和完全匹配:
在Matcher类中有matches、lookingAt和find都是匹配目标的方法,但容易混淆,整理它们的区别如下:
- matches:整个匹配,只有整个字符序列完全匹配成功,才返回True,否则返回False。但如果前部分匹配成功,将移动下次匹配的位置。
- lookingAt:部分匹配,总是从第一个字符进行匹配,匹配成功了不再继续匹配,匹配失败了,也不继续匹配。
- find:部分匹配,从当前位置开始匹配,找到一个匹配的子串,将移动下次匹配的位置。
举个例子:
- 模式串为:^http://temai.tuniu.com/([^/]*)/([^/]*)
- 待匹配字符串为:http://temai.tuniu.com/weihuo/tours/s4-p1/
matches返回false,find返回true;