httpclient模拟登录

本文介绍了一种使用Java进行模拟登录网站并抓取特定数据的方法。通过HttpClient发送POST请求实现登录过程,并利用Jsoup解析返回的HTML内容,进而获取所需的数据。此外,还介绍了如何设置Cookie和请求头来模拟真实用户的浏览器行为。
摘要由CSDN通过智能技术生成
import org.apache.commons.httpclient.Cookie;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

/**
 * @author WYP
 */
public class DataProcessor {

    public static void main(String[] args) {
        // 登陆 Url
        String loginUrl = "http:checkUser.jsp";
        // 需登陆后访问的 Url
        String dataUrl = "http:report.jsp?reportType=1&menuId=M";
        HttpClient httpClient = new HttpClient();
        // 模拟登陆,按实际服务器端要求选用 Post 或 Get 请求方式
        PostMethod postMethod = new PostMethod(loginUrl);
        // 设置登陆时要求的信息,用户名和密码
        NameValuePair[] data = {new NameValuePair("username", "12345"), new NameValuePair("password", "12345")};
        postMethod.setRequestBody(data);
        try {
            // 设置 HttpClient 接收 Cookie,用与浏览器一样的策略
            httpClient.getParams().setCookiePolicy(CookiePolicy.BROWSER_COMPATIBILITY);
            httpClient.executeMethod(postMethod);
            // 获得登陆后的 Cookie
            Cookie[] cookies = httpClient.getState().getCookies();
            StringBuilder tmpCookies = new StringBuilder();
            for (Cookie c : cookies) {
                tmpCookies.append(c.toString()).append(";");
                System.out.println(c.toString());
            }

            // 登录成功后的操作
            GetMethod getMethod = new GetMethod(dataUrl);
            // 每次访问需授权的网址时需带上前面的 cookie 作为通行证
            getMethod.setRequestHeader("cookie", tmpCookies.toString());
            // 还可以通过 PostMethod/GetMethod 设置更多的请求后数据
            // referer 标识从哪里来的 
            postMethod.setRequestHeader("Referer", "http:login.jsp");//可以从Fiddler里看到相关信息
            postMethod.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:55.0) Gecko/20100101 Firefox/55.0");
            httpClient.executeMethod(getMethod);
            // 拿到页面数据
            String html = getMethod.getResponseBodyAsString();
            // 解析获取的页面数据
            Document doc = Jsoup.parseBodyFragment(getMethod.getResponseBodyAsString());
            Elements elementsTr = doc.select("#rpttable");
            System.out.println(elementsTr.toString());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

}

总结:loginUrl 和 dataUrl 要获取准确,可以用Fiddler查看所有的请求路径和格式


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值