根据给定的URL自动获取其中的正文

采用了哈工大“基于行块分布函数”的算法实现,示例代码如下:

import apollo.crawler.core.net.TextExtract;


public class TextExtractDemo {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String urlStr = args[0];
		System.out.println(new TextExtract().getTextFromUrl(urlStr));
	}

}

需要添加依赖库apollo-crawler-core-1.0.0.jar

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值