html截取摘要并补齐标签(htmlparser)二

另外一个关键点就在于补齐截取出来的标签,而在这之前你可能需要面对里面的一些不常用甚至没见过的标签,所以你就需要扩展标签,而这时一个叫htmlparser的开源包

则可以帮得上忙了,它里面定义了一些常用的标签你可以在读取出来后它会帮你自动补齐,但是面对一些它里面没有的标签要怎么办呢,这时你可以自己再扩展出一些属于你自

已的标签,只要继承里面的一个叫CompositeTag的容器类,然后再模仿它已经定义好的标签进行扩展,当然写好了之后不要忘了要进行标签的注册,要不然它不能识别到这些自

定义的标签,不能识别到则不会自动帮你补齐。

  下面是先定义一个标签(当然,这是一个比较简单的标签):
 
  顺便赋上一篇关于自定义标签的文章:http://blog.csdn.net/joliny/archive/2008/02/27/2124678.aspx 可以参考.

 
public class WbrTag extends CompositeTag{

private static final String[] mIds = {"WBR"};
private static final String[] mEndTagEnders = {"head"};
public String[] getIds() {
return (mIds);
}
public String[] getEndTagEnders() {
return (mEndTagEnders);
}

public String[] getEnders() {
return super.getEnders();
}
}


   然后再进行标签的注册,这里当然可以注册多个自定义的标签:

public static void registerTags(Parser parser)
{
// 注册自定义的新结点解析器,这是必要的...
PrototypicalNodeFactory factory = new PrototypicalNodeFactory();
factory.registerTag(new WbrTag());
parser.setNodeFactory(factory);
}


  然后再进行补齐:

public static String subcontent(File file,int len) 
{
try {
String html = readWithTag(file, len);

Parser parser = Parser.createParser(new String(html.getBytes(),
"8859_1"), "");
registerTags(parser);

NodeList nodelist = parser
.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
if (node instanceof CompositeTag)
return true;
return false;
}
});

String str = "";
String tmp = "";
for (int i = 0; i < nodelist.size(); i++) {
CompositeTag testTag = (CompositeTag) nodelist.elementAt(i);
if (testTag.getParent() == null) {   //记住这里只需循环第一层就能帮你补齐的了
tmp = new String(testTag.toHtml().getBytes("8859_1"));
str += tmp + "\n";    
}
}

return str;
} catch (Exception e) {
return "";
}
}


还有要补充一下的就是我用的htmlparser的1.5版本,它的不同版本可能有所不同,特此声明.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值