HttpClient和HtmlParser配合实现自动登陆系统抽取页面信息

导读:
  
  HtmlParser代码接口变化比较多,因此写一个最新的。废话不多说,贴代码共大家享用!
  /*
  * Main.java
  *
  * Created on 2007年1月19日, 上午9:14
  *
  * To change this template, choose Tools | Template Manager
  * and open the template in the editor.
  */
  package wapproxy;
  import org.apache.commons.httpclient.*;
  import org.apache.commons.httpclient.methods.*;
  import org.apache.commons.httpclient.params.HttpMethodParams;
  import java.io.*;
  import org.htmlparser.Node;
  import org.htmlparser.NodeFilter;
  import org.htmlparser.Parser;
  import org.htmlparser.filters.TagNameFilter;
  import org.htmlparser.tags.*;
  import org.htmlparser.util.NodeList;
  import org.htmlparser.util.ParserException;
  
  /**
  *
  * @author xcz
  */
  public class Main {
  
  
  /** Creates a new instance of Main */
  public Main() {
  }
  
  /**
  * @param args the command line arguments
  */
  public static void main(String[] args) throws Exception {
  // Create an instance of HttpClient.
  HttpClient client = new HttpClient();
  
  // Create a method instance.
  PostMethod post_method = new PostMethod("http://localhost/rcpq/");
  
  NameValuePair[] data = {
  new NameValuePair("username", "admin"),
  new NameValuePair("password", "admin"),
  new NameValuePair("dologin", "1"),
  };
  
  post_method.setRequestBody(data);
  
  
  
  try {
  // Execute the method.
  int statusCode = client.executeMethod(post_method);
  
  if (statusCode != HttpStatus.SC_OK) {
  System.err.println("Method failed: "+ post_method.getStatusLine());
  }
  
  // Read the response body.
  //byte[] responseBody = post_method.getResponseBody();
  
  // Deal with the response.
  // Use caution: ensure correct character encoding and is not binary data
  //System.out.println(new String(responseBody));
  
  } catch (HttpException e) {
  System.err.println("Fatal protocol violation: "+ e.getMessage());
  e.printStackTrace();
  } catch (IOException e) {
  System.err.println("Fatal transport error: "+ e.getMessage());
  e.printStackTrace();
  } finally {
  // Release the connection.
  post_method.releaseConnection();
  }
  
  byte[] responseBody = null;
  
  GetMethod get_method = new GetMethod("http://localhost/rcpq/unit.php");
  
  // Provide custom retry handler is necessary
  get_method.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
  new DefaultHttpMethodRetryHandler(3, false));
  
  try {
  // Execute the method.
  int statusCode = client.executeMethod(get_method);
  
  if (statusCode != HttpStatus.SC_OK) {
  System.err.println("Method failed: "+ get_method.getStatusLine());
  }
  
  // Read the response body.
  //responseBody = get_method.getResponseBody();
  //这里用流来读页面
  
  InputStream in = get_method.getResponseBodyAsStream();
  if (in != null) {
  byte[] tmp = new byte[4096];
  int bytesRead = 0;
  ByteArrayOutputStream buffer = new ByteArrayOutputStream(1024);
  while ((bytesRead = in.read(tmp)) != -1) {
  buffer.write(tmp, 0, bytesRead);
  }
  responseBody = buffer.toByteArray();
  }
  
  
  // Deal with the response.
  // Use caution: ensure correct character encoding and is not binary data
  //System.out.println(new String(responseBody));
  
  } catch (HttpException e) {
  System.err.println("Fatal protocol violation: "+ e.getMessage());
  e.printStackTrace();
  } catch (IOException e) {
  System.err.println("Fatal transport error: "+ e.getMessage());
  e.printStackTrace();
  } finally {
  // Release the connection.
  get_method.releaseConnection();
  }
  
  Parser parser;
  
  parser = Parser.createParser(new String(responseBody, "GBK"), "GBK");
  
  
  String filterStr = "table";
  NodeFilter filter = new TagNameFilter(filterStr);
  
  NodeList tables = parser.extractAllNodesThatMatch(filter);
  
  //System.out.println(tables.elementAt(17).toString());
  //找到单位列表所在的表格
  
  TableTag tabletag = (TableTag) tables.elementAt(17);
  
  TableRow row = tabletag.getRow(3);
  
  TableColumn[] cols = row.getColumns();
  //System.out.println("单位名称:" + cols[2].toHtml());
  System.out.println("单位名称:" + cols[2].childAt(0).getText());
  
  }
  
  }

本文转自
http://blog.csdn.net/danny_xcz/archive/2007/01/19/1487602.aspx
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 、4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、下载 4使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合;、 4下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.m或d论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 、1资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。、资源 5来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。、资 5源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REaDme.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 、3本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdme.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 、本项3目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看ReAdmE.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值