java中爬虫

爬虫

    爬虫就是从一段文本上爬取符合条件的文本


    Pattern:    表示正则表达式
    Matcher:    文本匹配器,按照正则表达式的规则取读取字符串,从头开始读取


    String str="一段文本";

    //获取正则表达式对象
    Pattern p = Pattern.compile("正则表达式");
    //获取文本匹配器对象
    Matcher m=p.matcher(str);
    //文本匹配器用正则表达式搜索,如果有,就返回true。底层记录了目标字符串的起始索引和结束索引+1
    boolean b=m.find();
    //find方法读取一个满足条件的子串
    while(m.find()){
        //根据find方法记录的索引进行字符串截取,底层就是subString截取
        String s1=m.group();
    }


带条件的数据爬取

贪婪爬取        在爬取数据的时候尽可能的多获取数据
        ab+        就是获取abbbbbbbbbbbbb..这样
        ab+?        非贪婪爬取
        

替换        str.replaceAll(String regex,String replacement);

分隔        str.splid(String regex)
        将字符串以正则表达式来分割开,返回一个字符串数组    


捕获分组        正则表达式是按照()来分组的    
        规则1:    每组有组号,从1开始
        规则2:    以左括号位基准,第一个左括号位第一组,第二个位第二组...

        \\    \\表示组号,\\1表示第一组
    
        可以用分组的形式来解决 如:
            判断一个字符串开始部分和结束部分是否一致
            (.+).+\\1
            判断一个字符串开始部分和结束部分是否一致,开始部分内部每一个字符也要一致
            //    (.):把首字母看做一组
            //    \\2:把首字母拿出来再次使用
            //    *: 作用于\\2,表示后面重复的内容出现0次或多次
            ((.)\\2).+\\1
    
        后续还有继续使用本组的数据,
        如果在正则内部使用:    \\组号
        正则外部使用:        $组号        如:    replaceAll("(.)\\1+","$1")
    


非捕获分组

    (?:正则)        获取所有                java(?:8|11)
    (?=正则)        获取前面部分            java(?=8|11)
    (?!正则)        获取不是指定内容的前面部分        java(?!8|11)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值