开源的组件:http://sourceforge.net/projects/jtidy/
网站:http://jtidy.sourceforge.net/
可以自动修复HTML文本中的标签问题。
代码如下:
import java.io.StringReader;
import org.w3c.tidy.Tidy;
public class JtidyTest {
public static void main(String[] args) {
Tidy tidy = new Tidy(); // obtain a new Tidy instance
tidy.setXHTML(true); // set desired config options using tidy setters
tidy.setInputEncoding("utf8");
tidy.setShowWarnings(false);
tidy.setWraplen(1024);
tidy.setSmartIndent(true);
tidy.setQuiet(true);
tidy.setPrintBodyOnly(true);
tidy.setOutputEncoding("utf8");
StringReader sr = new StringReader("<div>这是文本<div>");
tidy.parse(sr, System.out); // run tidy, providing an input and output stream
sr = new StringReader("<div><p>这是文本</div>");
tidy.parse(sr, System.out);
}
}
输出内容如下:
<div>这是文本</div>
<div>
<p>这是文本</p>
</div>