爬虫抓了一本《延禧宫略》

最近女王迷上了《延禧宫略》,让我给她下一本,我搜了一下,网上有现成的嘛,这里就是一个:http://www.pingyaoji.com/yanxigonglue

正好最近在搞爬虫,便把每一章抓取下来,做了一个txt。下载在这里:https://download.csdn.net/download/zhaohuakai/10604236,或者百度云盘https://pan.baidu.com/s/1Bnc0HUtljY0jyqEwhpfzgw,密码gk1k。

程序使用了jsoup,基本代码如下:

Document doc = Jsoup.parse(new URL("http://www.pingyaoji.com/yanxigonglue/"), 5000);
List<Element> ls_li = doc.getElementsByTag("li");

FileWriter writer = new FileWriter("D:/延禧宫略.txt");

boolean findChapOne = false;
for (Element ele_li : ls_li) {
  String str_li = ele_li.toString();
  if (str_li.contains("第一章")) {
	findChapOne = true;
  }
  if (!findChapOne) {
	continue;
  }
  Element ele_a = ele_li.getElementsByTag("a").get(0);
  String urlEachChap = "http://www.pingyaoji.com" + ele_a.attr("href");
  String eachTitle = ele_a.text();

  writer.write("\r\n" + eachTitle + "\r\n");

  Document docChap = Jsoup.parse(new URL(urlEachChap), 5000);
  Element eleChapDatail = docChap.getElementsByClass("post").get(0);

  List<Element> ls_p = eleChapDatail.getElementsByTag("p");

  for (Element ele_para : ls_p) {
	String para = ele_para.toString();
	if (para.contains("<b>")) {
	  break;
	}
	if (para.contains("&nbsp") && para.length() < 15) {
	  break;
	}
	para = para.replaceAll("[ | ]", "").replaceAll("<.*?>", "");
	writer.write(para + "\r\n");
  }
  writer.flush();
}
writer.close();

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值