java中爬虫

wlqtqt

已于 2023-09-11 18:16:52 修改

阅读量594

点赞数 1

文章标签： java 爬虫 python

于 2023-07-20 13:28:40 首次发布

本文链接：https://blog.csdn.net/wlqtqt/article/details/131828283

版权

爬虫

爬虫就是从一段文本上爬取符合条件的文本

Pattern: 表示正则表达式
Matcher: 文本匹配器，按照正则表达式的规则取读取字符串，从头开始读取

String str="一段文本";

   //获取正则表达式对象
   Pattern p = Pattern.compile("正则表达式");
   //获取文本匹配器对象
   Matcher m=p.matcher(str);
   //文本匹配器用正则表达式搜索，如果有，就返回true。底层记录了目标字符串的起始索引和结束索引+1
   boolean b=m.find();
   //find方法读取一个满足条件的子串
   while(m.find()){
       //根据find方法记录的索引进行字符串截取,底层就是subString截取
       String s1=m.group();
   }

带条件的数据爬取

贪婪爬取       在爬取数据的时候尽可能的多获取数据
       ab+       就是获取abbbbbbbbbbbbb..这样
       ab+?       非贪婪爬取

替换 str.replaceAll(String regex,String replacement);

分隔 str.splid(String regex)
将字符串以正则表达式来分割开，返回一个字符串数组

捕获分组       正则表达式是按照()来分组的
       规则1：   每组有组号，从1开始
       规则2：   以左括号位基准，第一个左括号位第一组，第二个位第二组...

       \\   \\表示组号，\\1表示第一组

       可以用分组的形式来解决如：
           判断一个字符串开始部分和结束部分是否一致
           (.+).+\\1
           判断一个字符串开始部分和结束部分是否一致，开始部分内部每一个字符也要一致
           //   (.):把首字母看做一组
           //   \\2:把首字母拿出来再次使用
           //   *：作用于\\2,表示后面重复的内容出现0次或多次
           ((.)\\2).+\\1

       后续还有继续使用本组的数据，
       如果在正则内部使用：   \\组号
       正则外部使用：       $组号       如：   replaceAll("(.)\\1+","$1")

非捕获分组

   (?:正则)       获取所有               java(?:8|11)
   (?=正则)       获取前面部分           java(?=8|11)
   (?!正则)       获取不是指定内容的前面部分       java(?!8|11)

wlqtqt

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java中爬虫

正则外部使用： $组号如： replaceAll("(.)\\1+","$1")正则) 获取不是指定内容的前面部分 java(?:正则) 获取所有 java(?判断一个字符串开始部分和结束部分是否一致，开始部分内部每一个字符也要一致。=正则) 获取前面部分 java(?捕获分组正则表达式是按照()来分组的。// (.):把首字母看做一组。
复制链接

扫一扫