ElasticSearch之将网页上爬取的数据传到elasticsearch中

ElasticSearch之将网页上爬取的数据传到elasticsearch中。

我们一般会将数据保存到elasticsearch中来实现搜索。

项目源码: github地址

1.从网页爬取数据
网页解析数据一般会用Jsoup包。首先引进来吧。
接下来,我会从彼岸图网这个网站爬取一些图片,(仅测试娱乐,无商业用途)并将信息保存到elasticsearch上。
开始吧。
新建一个springboot项目。引入jsoup包。以及会用到的json解析包。

  <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.58</version>
        </dependency>

创建一个类,
HtmlParseUtil.java:

在这里插入图片描述
复制如下代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;

public class HtmlParseUtil {

    public static void main(String[] args) throws IOException {
        //你要解析那个网址
        String url = "http://pic.netbian.com/e/search/result/?searchid=16";
        //解析网页返回document对象
        Document document = Jsoup.parse(new URL(url),30000);
//        Element element = document.getElementById("J_goodsList");
//        System.out.println(element);
        Elements elements = document.getElementsByClass("slist");
       // System.out.println(elements);
        //获取所有的li元素
        Elements elements1 = elements.first().getElementsByTag("li");
        for (Element el : elements1){
            String img = el.getElementsByTag("img").eq(0).attr("src");
            String name = el.getElementsByTag("b").eq(0).text();
            System.out.println("-------------------------------------------------------------");
            System.out.println(img);
            System.out.println(name);
        }
    }


}

代码讲解。
1.你要搜索的网址,后面那个?searchid=16就是你搜索的东西,你可以改成其他的。

 //你要解析那个网址
        String url = "http://pic.netbian.com/e/search/result/?searchid=16";

2.解析网页。
得到的这个document 对象,就是网页中的dom元素对象,你可以按照js那样操作它。

 //解析网页返回document对象
        Document document = Jsoup.parse(new URL(url),30000);

3.根据id或者class来操作
注意,这里的slist是怎么来的。你打开彼岸图网,搜索“美女”(搜索的东西自定义),然后f12,
在这里插入图片描述

Elements elements = document.getElementsByClass("slist");

注意,保证你的电脑有网。运行测试一下,检查控制台输出的东西。
在这里插入图片描述

成功之后,把这个方法封装成一个工具类。以便调用。

import com.example.boot_es.pojo.Tupian;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
@Component
public class HtmlParseUtil {

    public static void main(String[] args) throws Exception {
   new HtmlParseUtil().parseHtml("12");
    }

    public List<Tupian> parseHtml(String keywords) throws Exception {

        //你要解析那个网址
        String url = "http://pic.netbian.com/e/search/result/?searchid="+keywords;
        //解析网页返回document对象
        Document document = Jsoup.parse(new URL(url), 30000);
//        Element element = document.getElementById("J_goodsList");
//        System.out.println(element);
        Elements elements = document.getElementsByClass("slist");
        // System.out.println(elements);
        //获取所有的li元素
        Elements elements1 = elements.first().getElementsByTag("li");

        ArrayList<Tupian> allimage = new ArrayList<>();

        for (Element el : elements1) {


            String img = el.getElementsByTag("img").eq(0).attr("src");
            String name = el.getElementsByTag("b").eq(0).text();
            System.out.println("-------------------------------------------------------------");
            System.out.println(img);
            System.out.println(name);

            Tupian tupian = new Tupian();
            tupian.setImg(img);
            tupian.setName(name);
            allimage.add(tupian);
        }
        return  allimage;
        
    }
}

Tupian.java:

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;

@Data
@AllArgsConstructor
@NoArgsConstructor
public class Tupian {
    private String img;
    private String name;
}

在这里插入图片描述

2.保存到ElasticSearch中。

数据获取成功之后。就要保存到elasticsearch中了。

首先整合elastic search

自己添加pom依赖。注意版本,跟你下载的要一致。
在这里插入图片描述

在这里插入图片描述

ElasticSearchClientConfig.java

import org.apache.http.HttpHost;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class ElasticSearchClientConfig {

    @Bean
    public RestHighLevelClient restHighLevelClient(){
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost("127.0.0.1",9200,"http")));

        return client;
    }

}

TupianService.java

import com.alibaba.fastjson.JSON;
import com.example.boot_es.pojo.Tupian;
import com.example.boot_es.utils.HtmlParseUtil;
import org.elasticsearch.action.bulk.BulkRequest;
import org.elasticsearch.action.bulk.BulkResponse;
import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.unit.TimeValue;
import org.elasticsearch.common.xcontent.XContentType;
import org.elasticsearch.index.query.QueryBuilder;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.index.query.TermQueryBuilder;
import org.elasticsearch.search.SearchHit;
import org.elasticsearch.search.builder.SearchSourceBuilder;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.concurrent.TimeUnit;

@Service
public class TupianService {

     private final static String  INDEX_NAME ="biantu_index";
    @Autowired
    private RestHighLevelClient restHighLevelClient;

    //1解析数据放入到elasticsearch
    public Boolean parseTupian(String keywords) throws Exception {
        List<Tupian> alldata = new HtmlParseUtil().parseHtml(keywords);

        BulkRequest bulkRequest = new BulkRequest();
        bulkRequest.timeout("1m");
        for (int i = 0; i < alldata.size(); i++) {
            bulkRequest.add(
                    new IndexRequest("biantu_index")
                            .source(JSON.toJSONString(alldata.get(i)), XContentType.JSON));
        }
        BulkResponse bulkResponse = restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);

        return !bulkResponse.hasFailures();

    }

    //2.获取这写数据实现搜索功能。

    public List<Map<String, Object>> searchPage(String keyword, int pageNo, int pageSize) throws IOException {

        if (pageNo <= 1) {
            pageNo = 1;
        }
        //条件搜索。

        SearchRequest searchRequest = new SearchRequest(INDEX_NAME);
        SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();

        //分页
        sourceBuilder.from(pageNo);
        sourceBuilder.size(pageSize);

        //精准匹配
        TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", keyword);
        sourceBuilder.query(termQueryBuilder);
        sourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));

        //执行搜索
        searchRequest.source(sourceBuilder);
        SearchResponse searchResponse = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);

        //结果解析
        ArrayList<Map<String, Object>> list = new ArrayList<>();
        for (SearchHit documentFields : searchResponse.getHits().getHits()) {
            list.add(documentFields.getSourceAsMap());
        }
        return list;
    }
}

TupianController.java


import com.example.boot_es.pojo.Tupian;
import com.example.boot_es.service.TupianService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.context.annotation.Configuration;
import org.springframework.stereotype.Controller;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.PathVariable;
import org.springframework.web.bind.annotation.RestController;

import java.io.IOException;
import java.util.List;
import java.util.Map;

@RestController
public class TupianController {


    @Autowired
    private TupianService tupianService;

    @GetMapping("/parse/{keyword}")
    public Boolean parse(@PathVariable("keyword") String keyword) throws Exception{
         return tupianService.parseTupian(keyword);

    }

    @GetMapping("/search/{keyword}/{pageNo}/{pageSize}")
   public List<Map<String,Object>> search(
          @PathVariable("keyword") String keyword,
          @PathVariable("pageNo") int pageNo,
          @PathVariable("pageSize") int pageSize

    ) throws IOException {

 return tupianService.searchPage(keyword,pageNo,pageSize);

   }

这里写了两个方法,一个方法是把解析出来的数据放入到elasticsearch中;第二个方法是通过关键字来搜索elasticsearch中的数据并渲染到网页上。

3.测试

1.先来测试第一个,把数据放入到elastic search中。

浏览器输入: http://localhost:8080/parse/14
在这里插入图片描述

如果返回的是 true,则表示保存成功。

返回elasticsearch查看结果:成功插入进来!

在这里插入图片描述

接下来测试第二个方法。
通过关键字搜索,输入网址:localhost:8080/search/4k/1/10 。 表示的意思是。查询name中包含4k的数据,并且显示前10条。成功!

在这里插入图片描述

接下来就可以通过Vue来绑定这些数据渲染到网页上了。

下一篇博客地址: 将数据渲染到网页上

如果您下载了本程序,但是该程序存在问题无法运行,那么您可以选择退款或者寻求我们的帮助(如果找我们帮助的话,是需要追加额外费用的)。另外,您不会使用资源的话(这种情况不支持退款),也可以找我们帮助(需要追加额外费用) 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值