nutch 中conf/regex-urlfilter.txt中的设置:
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]# accept anything else
#+.
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/
+^http://event.weibo.com/eventlist.
+^http://event.weibo.com/([0-9]*)*$
.在这里.表示所有的字符。
而java中的匹配是这样的
static String m_Regular_Date_Start = "(\\d{1,2}月\\d{1,2}日\\s\\d{1,2}\\:\\d{1,2}[^<]*)";
//static String m_Regular_Date_Start = "(\\d{1,2}月\\d{1,2}日\\s\\d{1,2}\\:\\d{1,2}\\([\\u4E00-\\u9FA5]*\\))";
static String m_Regular_Time_End_Text = "(结束时间:)";
static String m_Regular_Date_End = "(\\d{1,2}月\\d{1,2}日\\s\\d{1,2}\\:\\d{1,2}\\([\\u4E00-\\u9FA5]*\\))";
其中,\\u4E00-\\u9FA5是匹配汉字的。