Java爬虫,数据采集经验分享

公司要求我采集网页中的某些数据,以下是我采集的步骤和思路,比较基础。

一.首先我是通过抓取网页源代码的方式,根据源代码,获取各种标签中的数据

public class GetData {
    //数据抓取核心类

        // 获取网页数据
        /*
         * @param url:目标网址
         *
         * @param encoding:编码
         */
        //url抓取数据(参数URL:就是你要抓数据的地址。如:http://www.cnev.cn/)
        public static String urlClimb(String url) throws Exception{
            URL getUrl =new URL(url); //创建URl连接
            HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection(); //建立连接
            connection.connect(); //打开连接
            BufferedReader reader = new BufferedReader(new InputStreamReader(connection.getInputStream(), "utf-8")); //创建输入流并设置编码
            StringBuffer sb = new StringBuffer();
            String lines = null;
            while ((lines = reader.readLine()) != null) {
                lines = new String(lines.getBytes(), "utf-8"); //读取流的一行,设置编码
                sb = sb.append(lines + "\n");
            }
            reader.close(); //关闭流
            connection.disconnect(); //销毁连接
            return sb.toString(); //返回抓取的数据(注意,这里是抓取了访问的网站的全部数据)
        }
}

 二.通过Jsoup获取标签体内容(以京东为例)

(1)抓取title

(2)抓取标签中文本内容

 (3)抓取所有的a标签中内容

 代码如下

public class Demo {
    public static void main(String[] args) throws Exception {
        //第一条抓取title标签
        String result = GetData.urlClimb("https://www.jd.com/?cu=true&utm_source=baidu-pinzhuan&utm_medium=cpc&utm_campaign=t_288551095_baidupinzhuan&utm_term=0f3d30c8dba7459bb52f2eb5eba8ac7d_0_e931e367f5e34e07b1cb328f3bb899df");
        Document parse = Jsoup.parse(result);
        Elements title = parse.getElementsByTag("title");
        String Title = title.toString();
        System.out.println(Title);

        //抓“你好,请先登录”
        Elements login = parse.getElementsByClass("link-login");
        String Login = login.text();//.text()直接获取标签体中的内容
        System.out.println(Login);

        //抓取a标签所有内容
        Elements style = parse.getElementsByAttributeValue("style", "display:none");
        String data = style.text();
        System.out.println(data);
        //每个抓取到的中间都会有空格,所以直接用String中的split方法,全存入数组,遇到一个空格存一次
        String[] split = data.split(" ");
        for (int i=0;i<split.length;i++){
            System.out.println(split[i]);
        }
    }
}

 下面是结果

 有帮助的兄弟们点个赞,一起多交流,我也是小菜鸡一枚,大家一起进步

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周大仙1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值