简单的爬虫爬取文章

我们会用一些简单的爬虫去爬取小说等,那么在别人的网站中我们的应选择对应的标题等数据作为爬取的内容标杆
如以下代码
//模拟浏览器发请求
Connection connect = Jsoup.connect(“”");
Document doc = connect.get();
//System.out.println(document);
Elements select = doc.select(".list16");
for (Element list16 : select) {
//System.out.println(select);

		Elements select2 = list16.select("a[href]");
		for (Element a : select2) {
			//System.out.println(a);
			String url = a.attr("href");
			System.out.println(url);
			if(!url.startsWith("http")) {
				url="http:"+url;
			}
			if(!url.contains("subject")) {
				
				Connection connect2 = Jsoup.connect(url);
				Document document = connect2.get();
				Elements select3 = document.select(".article");
				String text=null;
				for (Element element : select3) {
					//System.out.println(element);
					 text = element.text();
					//以标题作为文本的名称,内容作为文本的内容存在本地磁盘
					
					//System.out.println(text);
				}
				String attr = a.attr("title");
				attr = attr.replace("|", "").replace("*", "").replace("\"", "").replace("?", "").replace("/", "")
						.replace("\\", "").replace(">", "").replace("<", "").replace(":", "");
				//System.out.println(attr);
				FileUtilIO.writeFile("G:/爬虫/"+attr+".txt", text, "utf8");
				
			}
		
		}
		
	}

选择不同的,与之网站对应的数据,就可以做到简单的爬取了

纯属个人观点
不喜勿喷
wuhui

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值