网络爬虫

一.基本概念

  1. seo:搜索引擎优化

  2. sem:在各种搜索引擎上打广告
    2.网络爬虫的几个要素:

  3. URL

  4. 资源下载

  5. 分析数据(采用正则表达式)

  6. 数据抽取、清洗(spark)、存储
    3.网页的几个要素;

  7. html:骨架

  8. css:美化

  9. js:交互(动态)
    反射可以使java动起来(具有动态特性)
    4.两种浏览器的工作模式:

  10. GET:对资源的请求

  11. POST:提交资源
    二.网络爬虫的 实现代码
    1.获取URL;

URL url=new URL("https://www.dianping.com");

2.下载资源
如果所爬的网页允许爬虫的话就可以使用以下代码。

        InputStream is=url.openStream();
		BufferedReader br=new BufferedReader(new InputStreamReader(is,"UTF-8"));//字符流由字节流转换来
		String msg=null;
		while(null!=(msg=br.readLine())) {
			System.out.println(msg);

但是,存在网页不允许爬虫信息,那么可以模拟浏览器请求来获取资源。
User-Agent是在浏览器中找到的 如图所示
在这里插入图片描述

        HttpURLConnection conn=(HttpURLConnection)url.openConnection();
		conn.setRequestMethod("GET");//请求资源get,会存在一些网页的信息不让榨取时,那么就模拟浏览器请求指令来获取资源
		conn.setRequestProperty("**User-Agent**", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36");
		BufferedReader br=new BufferedReader(new InputStreamReader(conn.getInputStream(),"UTF-8"));//字符流由字节流转换来
		String msg=null;
		while(null!=(msg=br.readLine())) {
			System.out.println(msg);
		}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值