简单的爬虫爬取文章

最新推荐文章于 2024-05-03 18:58:10 发布

wuhui_cheng

最新推荐文章于 2024-05-03 18:58:10 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/wuhui_cheng/article/details/104118485

版权

我们会用一些简单的爬虫去爬取小说等，那么在别人的网站中我们的应选择对应的标题等数据作为爬取的内容标杆
如以下代码
//模拟浏览器发请求
Connection connect = Jsoup.connect(“”");
Document doc = connect.get();
//System.out.println(document);
Elements select = doc.select(".list16");
for (Element list16 : select) {
//System.out.println(select);

		Elements select2 = list16.select("a[href]");
		for (Element a : select2) {
			//System.out.println(a);
			String url = a.attr("href");
			System.out.println(url);
			if(!url.startsWith("http")) {
				url="http:"+url;
			}
			if(!url.contains("subject")) {
				
				Connection connect2 = Jsoup.connect(url);
				Document document = connect2.get();
				Elements select3 = document.select(".article");
				String text=null;
				for (Element element : select3) {
					//System.out.println(element);
					 text = element.text();
					//以标题作为文本的名称，内容作为文本的内容存在本地磁盘
					
					//System.out.println(text);
				}
				String attr = a.attr("title");
				attr = attr.replace("|", "").replace("*", "").replace("\"", "").replace("?", "").replace("/", "")
						.replace("\\", "").replace(">", "").replace("<", "").replace(":", "");
				//System.out.println(attr);
				FileUtilIO.writeFile("G:/爬虫/"+attr+".txt", text, "utf8");
				
			}
		
		}
		
	}

选择不同的，与之网站对应的数据，就可以做到简单的爬取了

纯属个人观点
不喜勿喷
wuhui

wuhui_cheng

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
简单的爬虫爬取文章

我们会用一些简单的爬虫去爬取小说等，那么在别人的网站中我们的应选择对应的标题等数据作为爬取的内容标杆如以下代码//模拟浏览器发请求Connection connect = Jsoup.connect(“”");Document doc = connect.get();//System.out.println(document);Elements select = doc.select(...
复制链接

扫一扫