如何快速实现网络爬虫

q56731523

于 2022-11-22 09:44:25 发布

阅读量358

点赞数

文章标签：爬虫 python 开发语言网络爬虫数据抓取

本文链接：https://blog.csdn.net/weixin_44617651/article/details/127976476

版权

什么是网络爬虫？

我们经常听见一些大公司的程序员一直唠叨着“网络爬虫”，那么网络爬虫到底有啥奇特之处？

通俗点讲，网络爬虫就是能够模拟像正常用户那样浏览网页，并且将所需要的页面中的信息保存下来。有些同学认为需要保存自己完全可以手动保存哈，为啥还要区写个程序？其实这就得益于网络爬虫可以进行多线程多任务同时操作，而且不会像人工那样操作疲劳，只要机器不关机可以一直获取数据，不管工作效率和工作体量都远比人工快的多。

爬虫的原理分析

爬取网页的过程大致分成两个步骤：

首先爬取网页html文件

爬虫的第一步就是要模拟用户浏览网页，获取需要访问的页面。

模拟用户浏览网页的方法很简单，使用Java类库中的URLConnection类即可，这个类可以发送HTTP请求，并返回请求页的二进制数据，我们只需将返回的二进制数据转换成String类型，这些数据就是请求页的HTML文本！

//设置需要爬取页面的URL
URL url = new URL("http://www.baidu.com");  
//建立连接，获取URLConnection对象
        URLConnection connection = url.openConnection();
//将URLConnection对象转换成HttpURLConnection对象
        HttpURLConnection httpConnection = (HttpURLConnection) connection;
        httpConnection.setDoOutput(true);
//获取输出流
        OutputStreamWriter out = new OutputStreamWriter(httpConnection.getOutputStream(), "8859_1");  
//刷新输出流，然后关闭流
        out.flush();  
        out.close();  
        //一旦发送成功，用以下方法就可以得到服务器的回应：  
        String sCurrentLine = "";  
        String sTotalString = "";  
//ResponseCode＝＝200表示请求发送成功！      if(httpConnection.getResponseCode()==200){
//获取服务器返回的输入流
            InputStream l_urlStream = httpConnection.getInputStream();  
            BufferedReader l_reader = new BufferedReader(new InputStreamReader(l_urlStream));  
            while ((sCurrentLine = l_reader.readLine()) != null) {  
                sTotalString += sCurrentLine + "\r\n";  
            }  
            System.out.println(sTotalString);
            return true;
        }

其次分析html文件抽取其中需要的信息

当我们获取到请求页的HTML文本之后就需要在一堆HTML标签中将我们所需要的数据抽取出来。这里给大家提供一个很好用的抽取HTML数据的第三方Jar包：Jsoup！

Jsoup提供了getElementById()、getElementById()等方法，我们能够很方便地将指定标签中的数据抽取出来。除此之外，为了方便实现网络爬虫，Jsoup中已经集成了发送HTTP请求的函数，而且将整个发送请求的过程极度地简化，只需两步就能完成，无需再使用HttpConnection类库在发送HTTP请求前进行一系列复杂的设置，并且Jsoup中返回的就是HTML文本，无需再进行二进制转换成HTML文本的操作。代码如下：

//通过Jsoup获取HTML文本
Document doc = Jsoup.connect("http://10.20.100.5:8080/").get();
//获取HTML中所有的tbody标签
        Elements tbodys = doc.getElementsByTag("tbody");
//获取tbody标签中所有的td标签
        Elements tds = tbodys.get(1).getElementsByTag("td");
//获取td中的文本
        tds.get(0).html();