Java获取任意http网页源代码的方法分享

最新推荐文章于 2024-04-18 17:50:11 发布

yes7849

最新推荐文章于 2024-04-18 17:50:11 发布

阅读量5.9k

点赞数

这篇文章主要介绍了Java获取任意http网页源代码的方法,可实现获取网页代码以及去除HTML标签的代码功能,涉及Java正则操作相关实现技巧,需要的朋友可以参考下

本文实例讲述了JAVA获取任意http网页源代码。分享给大家供大家参考，具体如下：

JAVA获取任意http网页源代码可实现如下功能：

1. 获取任意http网页的代码
2. 获取任意http网页去掉HTML标签的代码

Webpage类：

 
      /** 
     
      * 网页操作相关类 
     
      */ 
     
      package  
      test; 
     
      import  
      java.io.BufferedReader; 
     
      import  
      java.io.InputStreamReader; 
     
      import  
      java.net.URL; 
     
      import  
      java.util.regex.Matcher; 
     
      import  
      java.util.regex.Pattern; 
     
      /** 
     
      * @author winddack 
     
      * 
     
      */ 
     
      public  
      class  
      Webpage { 
     
      private  
      String pageUrl; 
      //定义需要操作的网页地址 
     
      private  
      String pageEncode= 
      "UTF8" 
      ; 
      //定义需要操作的网页的编码 
     
      public  
      String getPageUrl() { 
     
      return  
      pageUrl; 
     
      } 
     
      public  
      void  
      setPageUrl(String pageUrl) { 
     
      this 
      .pageUrl = pageUrl; 
     
      } 
     
      public  
      String getPageEncode() { 
     
      return  
      pageEncode; 
     
      } 
     
      public  
      void  
      setPageEncode(String pageEncode) { 
     
      this 
      .pageEncode = pageEncode; 
     
      } 
     
      //定义取源码的方法 
     
      public  
      String getPageSource() 
     
      { 
     
      StringBuffer sb =  
      new  
      StringBuffer(); 
     
      try  
      { 
     
      //构建一URL对象 
     
      URL url =  
      new  
      URL(pageUrl); 
     
      //使用openStream得到一输入流并由此构造一个BufferedReader对象 
     
      BufferedReader in =  
      new  
      BufferedReader( 
      new  
      InputStreamReader(url.openStream(), pageEncode)); 
     
      String line; 
     
      //读取www资源 
     
      while  
      ((line = in.readLine()) !=  
      null 
      ) 
     
      { 
     
      sb.append(line); 
     
      } 
     
      in.close(); 
     
      } 
     
      catch  
      (Exception ex) 
     
      { 
     
      System.err.println(ex); 
     
      } 
     
      return  
      sb.toString(); 
     
      } 
     
      //定义一个把HTML标签删除过的源码的方法 
     
      public  
      String getPageSourceWithoutHtml() 
     
      { 
     
      final  
      String regEx_script =  
      "<script[^>]*?>[\\s\\S]*?<\\/script>" 
      ;  
      // 定义script的正则表达式 
     
      final  
      String regEx_style =  
      "<style[^>]*?>[\\s\\S]*?<\\/style>" 
      ;  
      // 定义style的正则表达式 
     
      final  
      String regEx_html =  
      "<[^>]+>" 
      ;  
      // 定义HTML标签的正则表达式 
     
      final  
      String regEx_space =  
      "\\s*|\t|\r|\n" 
      ; 
      //定义空格回车换行符 
     
      String htmlStr = getPageSource(); 
      //获取未处理过的源码 
     
      Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE); 
     
      Matcher m_script = p_script.matcher(htmlStr); 
     
      htmlStr = m_script.replaceAll( 
      "" 
      );  
      // 过滤script标签 
     
      Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE); 
     
      Matcher m_style = p_style.matcher(htmlStr); 
     
      htmlStr = m_style.replaceAll( 
      "" 
      );  
      // 过滤style标签 
     
      Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE); 
     
      Matcher m_html = p_html.matcher(htmlStr); 
     
      htmlStr = m_html.replaceAll( 
      "" 
      );  
      // 过滤html标签 
     
      Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE); 
     
      Matcher m_space = p_space.matcher(htmlStr); 
     
      htmlStr = m_space.replaceAll( 
      "" 
      );  
      // 过滤空格回车标签 
     
      htmlStr = htmlStr.trim();  
      // 返回文本字符串 
     
      htmlStr = htmlStr.replaceAll( 
      " " 
      ,  
      "" 
      ); 
     
      htmlStr = htmlStr.substring( 
      0 
      , htmlStr.indexOf( 
      "。" 
      )+ 
      1 
      ); 
     
      return  
      htmlStr; 
     
      } 
     
      }

调用：

1

2

3

4

 
      Webpage page= 
      new  
      Webpage(); 
     
      page.setPageUrl( 
      "http://www.baidu.com" 
      ); 
     
      String code=page.getPageSourceWithoutHtml(); 
     
      System.out.println(code);

转转：http://www.php.cn/java-article-379597.html

yes7849

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Java获取任意http网页源代码的方法分享

这篇文章主要介绍了Java获取任意http网页源代码的方法,可实现获取网页代码以及去除HTML标签的代码功能,涉及Java正则操作相关实现技巧,需要的朋友可以参考下本文实例讲述了JAVA获取任意http网页源代码。分享给大家供大家参考，具体如下：JAVA获取任意http网页源代码可实现如下功能：1. 获取任意http网页的代码2. 获取任意http网页去掉HTM
复制链接

扫一扫