怎么解决jsoup不能完整获取响应内容的问题


当使用jsoup做爬虫类的应用时,很是方便。

但如果遇到不能完整获取响应内容时,一般有以下几个原因。

1. 网络异常,造成读取不全。这个很少发生,因为jsoup会报告exception

2. 网络超时,此时可以设置 connection.timeout(n) 增加超时时间。

3. 一切看起来都正常,也没有异常发生。 但是获取的数据就是少了一截。


这里主要将第三点。

仔细分析获取到的数据,发现得到数据都是1024k。

如果获取到的数据不超过1024k,程序正常,得到的数据也正常。

一旦数据超过1024k时,数据就只有预期得到数据的前1024k字节了。

仔细查找jsoup的api 发现,默认设置下,jsoup最大获取的响应长度正好时1M。

所以这个时候只要设置 connection.maxBodySize(0),设置为0,就可以得到不限响应长度的数据了。

完整代码就是

Document = Jsoup.connect(url)
    .header("Accept-Encoding", "gzip, deflate")
    .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
    .maxBodySize(0)
    .timeout(600000)
    .get();




引用\[1\]:在使用JSoup模拟登录我校内网的时候报了如下错误: Exception in thread "main" org.jsoup.HttpStatusException: HTTP error fetching URL. Status=422, URL=https://webvpn.ncepu.edu.cn/users/sign_in at jsoup@1.10.2/org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:679) at jsoup@1.10.2/org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:628) at jsoup@1.10.2/org.jsoup.helper.HttpConnection.execute(HttpConnection.java:260) at EDM.login_final.main(login_final.java:66) 。 引用\[2\]:解决办法:动态请求网页数据来获得form data: Connection con = Jsoup.connect(LOGIN_URL); con.header(USER_AGENT, USER_AGENT_VALUE); Response res = con.execute(); Document d = Jsoup.parse(res.body()); // 通过Jsoup返回信息转换为Dom树 List<Element> elements = d.select("form"); // 获取提交form表单,可以通过查看页面源码代码得知 Map<String, String> datas = new HashMap<>(); for (Element e : elements.get(0).getAllElements()) { if (e.attr("name").equals("user\[login\]")) { e.attr("value", ************); } if (e.attr("name").equals("user\[password\]")) { e.attr("value", ******); } //添加其它信息 if (e.attr("name").length() > 0) { datas.put(e.attr("name"), e.attr("value")); } }。 引用\[3\]:刚开始我是直接手动给connect对象添加数据,总是报422错误。调试了一段时间后发现:表单数据中的authenticity_token竟然是动态变化的…。于是这种做法就是错误的: connect.data("user\[login\]", "************").data("user\[password\]", "******"); connect.data("dymatice_code", "unknown").data("utf8", "?").data("commit", "登录 Login"); connect.data("authenticity_token", "dbZNX3RljHFODgsb3tqZszd/jHjOrQYvnfhwWrPzTCU39NfVO9UcG5/rT3aKgxYu7xfCudoq4ibcDfn0rCZG0A=="); 。 问题:jsoup解决412错误的方法是什么? 回答: 解决412错误的方法是通过动态请求网页数据获取form data。首先,使用JSoup的connect方法连接到目标URL,并设置请求头信息。然后,执行连接并将返回响应体转换为DOM树。接下来,通过选择器获取提交的form表单,并将需要填充的字段的value属性设置为相应的值。最后,将所有的表单数据存储在一个Map中,以便后续使用。这样就可以避免直接手动添加数据导致的422错误。\[2\] #### 引用[.reference_title] - *1* *2* *3* [Exception in thread “main“ org.jsoup.HttpStatusException: HTTP error fetching URL. Status=422, URL...](https://blog.csdn.net/Cyril_KI/article/details/108172277)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值