采用了哈工大“基于行块分布函数”的算法实现,示例代码如下:
import apollo.crawler.core.net.TextExtract;
public class TextExtractDemo {
/**
* @param args
*/
public static void main(String[] args) {
String urlStr = args[0];
System.out.println(new TextExtract().getTextFromUrl(urlStr));
}
}
需要添加依赖库apollo-crawler-core-1.0.0.jar