Android网页爬虫jsoup实现从网页提取数据与分页循环加载

之前用到过python中的爬虫实现网页数据的爬取,但Android的并没有用到过,由于公司项目需求需要用到,所以研究了下Android中网页爬虫的实现,在解决了公司项目功能需求的同时,在这里用博客做下笔记,开源下贡献出来干货让更多喜欢研究爬虫技术的兄弟们可以拿来学习研究。
Android里面支持爬虫的框架首选jsoup,支持AndroidStudio直接在app目录下的build.gradle文件中进行依赖引入,jsoup除了支持Android也支持java,所以java写爬虫的话首选的库也是它。
下面来讲如何使用这个库来进行Android爬虫开发:

第一步就是进行在项目工程app目录下的build.gradle文件中进行依赖引入对jsoup库:

implementation 'org.jsoup:jsoup:1.10.2'

第二步:查看jsoup官方文档,了解jsoup在代码中的初始化调用和爬虫提取标签的各种选择器使用方法,这里附上官方说明文档地址(http://www.open-open.com/jsoup/selector-syntax.htm
这里做下搬运,直接粘过来几段常用的:
使用选择器语法来查找元素
问题
你想使用类似于CSS或jQuery的语法来查找和操作元素。

方法
可以使用Element.select(String selector) 和 Elements.select(String selector) 方法实现:

File input = new File(“/tmp/input.html”);
Document doc = Jsoup.parse(input, “UTF-8”, “http://example.com/“);

Elements links = doc.select(“a[href]”); //带有href属性的a元素
Elements pngs = doc.select(“img[src$=.png]”);
//扩展名为.png的图片

Element masthead = doc.select(“div.masthead”).first();
//class等于masthead的div标签

Elements resultLinks = doc.select(“h3.r > a”); //在h3元素之后的a元素
说明
jsoup elements对象支持类似于CSS (或jquery)的选择器语法,来实现非常强大和灵活的查找功能。.

这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的,因此可实现指定元素的过滤,或者链式选择访问。

Select方法将返回一个Elements集合,并提供一组方法来抽取和处理结果。

Selector选择器概述

tagname: 通过标签查找元素,比如:a
ns|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法来查找 <fb:name> 元素#id
: 通过ID查找元素,比如:#logo
.class: 通过class名称查找元素,比如:.masthead
[attribute]: 利用属性查找元素,比如:[href]
[^attr]: 利用属性名前缀来查找元素,比如:可以用[^data-] 来查找带有HTML5 Dataset属性的元素
[attr=value]: 利用属性值来查找元素,比如:[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素,比如:[href*=/path/]
[attr~=regex]: 利用属性值匹配正则表达式来查找元素,比如: img[src~=(?i)\.(png|jpe?g)]
*: 这个符号将匹配所有元素
Selector选择器组合使用
el#id: 元素+ID,比如: div#logo
el.class: 元素+class,比如: div.masthead
el[attr]: 元素+class,比如: a[href]
任意组合,比如:a[href].highlight
ancestor child: 查找某个元素下子元素,比如:可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某个父元素下的直接子元素,比如:可以用div.content > p 查找 p 元素,也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B,比如:div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素,比如:h1 ~ p
el, el, el:多个选择器组合,查找匹配任一选择器的唯一元素,例如:div.masthead, div.logo
伪选择器selectors
:lt(n): 查找哪些元素的同级索引值(它的位置在DOM树中是相对于它的父节点)小于n,比如:td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同级索引值大于n,比如: div p:gt(2)表示哪些div中有包含2个以上的p元素
:eq(n): 查找哪些元素的同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签的Form元素
:has(seletor): 查找匹配选择器包含元素的元素,比如:div:has(p)表示哪些div包含了p元素
:not(selector): 查找与选择器不匹配的元素,比如: div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text): 查找包含给定文本的元素,搜索不区分大不写,比如: p:contains(jsoup)
:containsOwn(text): 查找直接包含给定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正则表达式,比如:div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素
注意:上述伪选择器索引是从0开始的,也就是说第一个元素索引值为0,第二个元素index为1等

第三步开始项目实践与使用:
比如我想分别循环爬百度网页的一些东西,根据我得到的网页源码然后判断每一个列表中单个item网站标题是否是我想抓取的一个网站,然后进行一些爬取的操作等

/**
 * Created by JunJieW on 2018/8/13.
 * 用一个weiview进行网页详情页
 * 和请求分页列表网页浏览加载
 */

public class MyWebViewClient5 extends WebViewClient {
    private String TAG = "MyWebViewClient5";
    private WebViewLoad webViewLoad = null;
    public static Boolean isLoadOK = true;
    public static boolean isChiledLoad = false;
    // 本次请求网页的源码中第几页span标签上的文本内容
    public static String htmlstr = "";
    // 上次请求网页的源码中第几页span标签上的文本内容
    public static String last_htmlstr = "aaaaaaa";
    private  Document doc;
    private  Elements els;
    private  Document jsoup;


private void getPageHtml(final WebView view, final String url) {
        new Thread() {
            @Override
            public void run() {
                super.run();
                try {
                    Log.d(TAG+"ssssss==",url);
                    Log.d(TAG+"ssssss==","decode=="+URLDecoder.decode(url,"UTF-8"));
                    final boolean[] isOK = {false}; //是否已经匹配到了网页条目,如果为false则不会进行循环翻页的操作
                     jsoup = Jsoup.connect(URLDecoder.decode(url,"UTF-8")).get();
                     doc = Jsoup.parse(jsoup.html(), "UTF-8");

                    // 保存网页源码到.txt文件中
//                    SaveHtmlToFileUtil.saveHtmlToFile(doc.html().replace(Jsoup.parse("&nbsp;").text(), " "));
                    Log.d(TAG+"html", "==" +doc.text());
                      els = doc.select("a[href]"); //拿到所有带有href属性的a元素
                    Log.d(TAG, "a_href==" + els.attr("abs:href") .toString());

                    //获取到class等于new-nowpage的span标签
                    Element element = doc.select("span.new-nowpage").first();
                    // 记录更新本次请求网页的页数spqn标签上文本
                    if (element!=null){
                        htmlstr = element.text();
                        Log.d(TAG+"--", "span.new-nowpage==" + htmlstr.toString());
                    }

                  // 方法一,直接取出a标签和这个a标签下的所有子标签上的文字,拼接为一个字符串,判断里面是否有关键字标题来匹配判断是否是目标网站
                    int i = 0;
                    while ( i< els.size()) {
                        String allaTest = "";
                        Elements allElements = els.get(i).getAllElements();
                        int j = 0;
                        while (j< allElements.size()){
                            allaTest+=allElements.get(j).text();
                            j++;
                        }
                        Log.d(TAG+"sss","i=="+i+"allaTest=="+allaTest);

                        if (allaTest.contains(MainActivity2.Companion.getWk())){
//                            SystemClock.sleep(5000);
                            final int finalI = i;
                            view.post(new Runnable() {
                                @Override
                                public void run() {
                                Toast.makeText(view.getContext(),"找到了目标",Toast.LENGTH_SHORT).show();
                                    SystemClock.sleep(1000);     
                                    isChiledLoad = true;
                                    isOK[0] = true;
                                }
                            });

                            break;

                        }
                        i++;
                    }





                    //分页请求自动控制停止重新再来方案: 如果上次请求来的网页源码和这次的一摸一样,就说明已经是最后的一页了,不再继续往后进行分页请求,重新开始搜索第一页
                    if (last_htmlstr.equals(htmlstr)){
                        view.post(new Runnable() {
                            @Override
                            public void run() {
//                                SystemClock.sleep(3000);
                                MainActivity2.Companion.setPn(0);
                                String url ="https://www.baidu.com/from=844b/s?pn="+0+"&usm="+0+"&word="+MainActivity2.Companion.getWd()+"&sa=np&rsv_pq=10174940593401999016&rsv_t=4442boxupT4C5j5XyOJtpeDcP4cL3%252F5oEemiV7j38esNdoSoWCO2TeQVRA&ms=1&rqid=10174940593401999016&adid=8d34a68f806daea8";
                                view.loadUrl(url);
                                isChiledLoad = false ;
                                isOK[0] = true;
                                Log.d(TAG,"调用访问到最后1页后不再往后继续循环分页请求,重新开始搜索第一页");
// 这里就是百度的分页请求的一个分页参数,好像是数据的条数,除以10后就是网页的分页参数                                MainActivity2.Companion.setPn(MainActivity2.Companion.getPn() + 10);
                                htmlstr = "";
                            }
                        });
                    }

                    // 记录上一次访问网页的页数spqn标签上文本
                    last_htmlstr = htmlstr;


                    // 向下进行分页请求的方法逻辑块
                    if (!isOK[0]){
                        MainActivity2.Companion.setPn(MainActivity2.Companion.getPn() + 10);
                        view.post(new Runnable() {
                            @Override
                            public void run() {
                                int usm = 0;
                                if (MainActivity2.Companion.getPn()!=0){
                                    usm = MainActivity2.Companion.getPn()/10;
                                }
//                                SystemClock.sleep(3000);
                                String url ="https://www.baidu.com/from=844b/s?pn="+MainActivity2.Companion.getPn()+"&usm="+usm+"&word="+MainActivity2.Companion.getWd()+"&sa=np&rsv_pq=10174940593401999016&rsv_t=4442boxupT4C5j5XyOJtpeDcP4cL3%252F5oEemiV7j38esNdoSoWCO2TeQVRA&ms=1&rqid=10174940593401999016&adid=8d34a68f806daea8";
                                view.loadUrl(url);
                                isChiledLoad = false ;
                                isOK[0] = true;
                            }
                        });
                    }


          // 方法二,使用纯粹的jsoup里面的选择器方法从所有的a标签里面提取文字,判断子标签里面是否有<em>,<h3>,<p>标签,如果有的话判断是否含有搜索的关键字标题进行判断是否是目标网站
//                    for (int i = 0;i< els.size();i++) {
//                            if (els.get(i).children().tagName("p") != null) {
//                                Log.d(TAG+"22","p上的test=="+els.get(i).children().tagName("p").text());
//                                if (els.get(i).children().tagName("p").text().contains(URLEncoder.encode(MainActivity2.Companion.getWd(),"GBK"))
//                                        ||els.get(i).children().tagName("p").text().contains(MainActivity2.Companion.getWd())){
                                    MainActivity.Companion.webview2Load(els.get(i).attr("abs:href") .toString());
//                                    Log.d(TAG+"333","p里面有"+ MainActivity2.Companion.getWd());
                                    Thread.sleep(1000)
//                                    if (StringUtils.StringIsNull(els.get(i).attr("abs:href") .toString())){
//                                        if (isLoadOK = true){
//                                            webViewLoad.loadWebUrl(els.get(i).attr("abs:href") .toString());
//                                            isChiledLoad = true ;
//                                            isOK[0] = true;
//                                            break;
//                                        }
//                                    }
//                                }else {
//                                    Log.d(TAG,"p.text()=="+els.get(i).children().tagName("p"));
//                                }
//
//                                if (els.get(i).children().tagName("p").tagName("em")!=null){
//
//                                    if (els.get(i).children().tagName("p").tagName("em").text().contains(URLEncoder.encode(MainActivity2.Companion.getWd(),"utf-8"))
//                                            ||els.get(i).children().tagName("p").tagName("em").text().contains(MainActivity2.Companion.getWd())){
                                    MainActivity.Companion.webview2Load(els.get(i).attr("abs:href") .toString());
//                                        Log.d(TAG+"333","p的em里面有"+ MainActivity2.Companion.getWd());
//                                        if (StringUtils.StringIsNull(els.get(i).attr("abs:href") .toString())){
//                                            if (isLoadOK = true){
//                                                webViewLoad.loadWebUrl(els.get(i).attr("abs:href") .toString());
//                                                isOK[0] = true;
//                                                isChiledLoad = true ;
//                                                break;
//                                            }
//                                        }
//                                    }else {
//                                        Log.d(TAG,"em.text()=="+ new String( els.get(i).children().tagName("p").tagName("em").toString()
//                                                .getBytes("UTF-8") , "UTF-8"
//                                        ));
//
//                                    }
//
//                                }
//
//
//                            }
//
//                            if (els.get(i).children().tagName("h3") != null) {
//                                Log.d(TAG+"22","H3上的test=="+els.get(i).children().tagName("h3").text());
//                                if (els.get(i).children().tagName("h3").text().contains(URLEncoder.encode(MainActivity2.Companion.getWd(),"utf-8"))
//                                        ||els.get(i).children().tagName("h3").text().contains(MainActivity2.Companion.getWd())){
                                    MainActivity.Companion.webview2Load(els.get(i).attr("abs:href") .toString());
//                                    Log.d(TAG+"333","h3里面有"+ MainActivity2.Companion.getWd());
//                                    if (StringUtils.StringIsNull(els.get(i).attr("abs:href") .toString())){
//                                        if (isLoadOK = true){
//                                            webViewLoad.loadWebUrl(els.get(i).attr("abs:href") .toString());
//                                            isOK[0] = true;
//                                            isChiledLoad = true ;
//                                            break;
//                                        }
//                                    }
//                                }else {
//                                    Log.d(TAG,"h3.text()=="+new String(els.get(i).children().tagName("h3").toString()
//                                            .getBytes("UTF-8") , "UTF-8"
//                                    ));
//
//                                }
//                                if (els.get(i).children().tagName("h3").tagName("em")!=null){
//                                    if (els.get(i).children().tagName("h3").tagName("em").text().contains(URLEncoder.encode(MainActivity2.Companion.getWd(),"utf-8"))
//                                            ||els.get(i).children().tagName("h3").tagName("em").text().contains(MainActivity2.Companion.getWd())
//                                            ){
                                    MainActivity.Companion.webview2Load(els.get(i).attr("abs:href") .toString());
//                                        Log.d(TAG+"333","h3的em里面有"+ MainActivity2.Companion.getWd());
//                                        if (StringUtils.StringIsNull(els.get(i).attr("abs:href") .toString())){
//                                            if (isLoadOK = true){
//                                                webViewLoad.loadWebUrl(els.get(i).attr("abs:href") .toString());
//                                                isOK[0] = true;
//                                                isChiledLoad = true ;
//                                                break;
//                                            }
//                                        }
//                                    }else {
//                                        Log.d(TAG,"em.text()=="+ new String( els.get(i).children().tagName("p").tagName("em").toString()
//                                                .getBytes("UTF-8") , "UTF-8"
//                                        ));
//
//                                    }
//                                }
//
//                            }
//                    }

                    doc = null;
//                    els = null;
                    jsoup = null;

                } catch (Exception e) {
                    e.printStackTrace();
                   getPageHtml(view,url);
                }
            }
        }.start();

// 在webview的webclient中重写onPageFinished方法中调用
  @Override
    public void onPageFinished(WebView view, String url) {
    view.getSettings().setJavaScriptEnabled(true);
      getPageHtml(view,url);
    } 

}

后面给webview设置调用自己定义好的webclient的方法很简单

webview.webViewClient = MyWebViewClient5()

这样一个Android的简单爬虫就可以了,我这里只是简单写了点提取数据的功能,你掌握了jsoup选择器的用法后可以提取更多你想要的网页数据!

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值