JTidy提供了一个语法检查器和标签补偿器,能够对各种乱七八糟的html进行修复,使之符合xhtml标准。
其一些常用的参数设置:
setAltText(java.lang.String altText)
加上默认的alt属性值
setBreakBeforeBR(boolean breakBeforeBR)
在换行
之前加一空行
setCharEncoding(int charencoding)
已废弃
setConfigurationFromFile(java.lang.String filename)
从文件中读取配置信息
setConfigurationFromProps(java.util.Properties props)
从properties中读取配置信息
setErrfile(java.lang.String errfile)
错误输出文件
setFixBackslash(boolean fixBackslash)
URL中用/取代/
setForceOutput(boolean forceOutput)
不管生成的xml是否有错,强制输出。
setHideComments(boolean hideComments)
结果中不生成注释
setInputEncoding(java.lang.String encoding)
输入编码
setLogicalEmphasis(boolean logicalEmphasis)
用em替代i,strong替代b
setMessageListener(TidyMessageListener listener)
加入一个TidyMessageListener监听器
setOnlyErrors(boolean onlyErrors)
只输出错误文件
setOutputEncoding(java.lang.String encoding)
输出编码
setPrintBodyOnly(boolean bodyOnly)
只输出body中的部分
setRepeatedAttributes(int repeatedAttributes)
重复属性的处理
setSpaces(int spaces)
每行前的空格数,就是缩进格式
setTidyMark(boolean tidyMark)
是否生成tidy标记
setTrimEmptyElements(boolean trimEmpty)
不输出空元素
setUpperCaseAttrs(boolean upperCaseAttrs)
属性变大写
setUpperCaseTags(boolean upperCaseTags)
标记变大写
setWraplen(int wraplen)
多长换行
setXHTML(boolean xhtml)
输出xhtml
setXmlOut(boolean xmlOut)
输出xml
setXmlPi(boolean xmlPi)
文件头输出xml标记
setXmlSpace(boolean xmlSpace)
加入xml名字空间属性