怎么解决jsoup不能完整获取响应内容的问题

最新推荐文章于 2022-10-26 15:19:33 发布

xiciliu

最新推荐文章于 2022-10-26 15:19:33 发布

阅读量7.4k

点赞数 3

分类专栏： Java 文章标签： java jsoup 爬虫

本文链接：https://blog.csdn.net/xiciliu/article/details/56847659

版权

Java 专栏收录该内容

23 篇文章

订阅专栏

当使用jsoup做爬虫类的应用时，很是方便。

但如果遇到不能完整获取响应内容时，一般有以下几个原因。

1. 网络异常，造成读取不全。这个很少发生，因为jsoup会报告exception

2. 网络超时，此时可以设置 connection.timeout(n) 增加超时时间。

3. 一切看起来都正常，也没有异常发生。但是获取的数据就是少了一截。

这里主要将第三点。

仔细分析获取到的数据，发现得到数据都是1024k。

如果获取到的数据不超过1024k，程序正常，得到的数据也正常。

一旦数据超过1024k时，数据就只有预期得到数据的前1024k字节了。

仔细查找jsoup的api 发现，默认设置下，jsoup最大获取的响应长度正好时1M。

所以这个时候只要设置 connection.maxBodySize(0)，设置为0，就可以得到不限响应长度的数据了。

完整代码就是

Document = Jsoup.connect(url)
    .header("Accept-Encoding", "gzip, deflate")
    .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0")
    .maxBodySize(0)
    .timeout(600000)
    .get();

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiciliu

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
8
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Java爬虫Jsoup+httpclient获取动态生成的数据

10-19

主要介绍了Java爬虫Jsoup+httpclient获取动态生成的数据的相关资料,需要的朋友可以参考下

Jsoup抓取整个网站

12-28

使用jsoup，抓取整个网站，保存在本地。包括网站的“css、js、图片、页面”，都会保存在本地。并且保存的路径痛网站上的路径。经过测试，一般的基础网站都可以抓取。

8 条评论您还未登录，请先登录后发表或查看评论

java Jsoup不能获取完整响应内容

qq_41633199的博客

07-29

621

今天在使用jsoup请求文件服务的经过base64编码后的文件内容的时候，发现文件没有获取完整，文件编码后是1864kb，但是http client获取到的是1024kb，见下：源文件base64编码测试代码： http获取文件服务响应的文件内容代码：结果如下(http获取到的只有1024kb，导致报错)： http客户端代码如下，使用的是jsoup：经过追溯jsoup源码发现，其http请求体默认大小限制为1MB 知道原因后，传入自定义的最大请求体限制即解决，这里我设

jsoup获取响应内容不完整

樊金良的博客

04-23

2446

完美解决jsoup获取响应内容不完整 Jsoup抓取网页只能抓取一部分不能完整获取响应内容时，一般有以下几个原因。网络异常，这个很少发生，jsoup会报告exception 网络超时，可以设置 connection.timeout(n) 增加超时时间。看起来都正常，没有异常发生。但是获取的数据就是少了一截。如果获取到的数据不超过1024k，程序正常，得到的数据也正常。一旦数据超过1024k时，数据就只有预期得到数据的前1024k字节了。仔细查找jsoup的api 发现，默认设置下，jsoup最

java循环等待网络连接_java – 在循环中使用Jsoup connect().第一个请求总是比其他所有请求慢得多...

weixin_39720003的博客

02-26

284

我正在创建一个小应用程序,用于衡量HTML文档加载所需的时间,每隔x秒检查一次.我在循环中使用jsoup：Connection.Response response = null;for (int i = 0; i < totalGets; i++) {long startTime = System.currentTimeMillis();try {response = Jsoup.conne...

爬虫抓取总是抓不全网页源码_爬虫系列(1)：抓取网页URL

weixin_39681644的博客

12-02

1004

接上一节(爬虫系列(0)：项目搭建)网络爬虫的都是通过多线程，多任务逻辑实现的，在springboot框架中已封装线程池(ThreadPoolTaskExecutor)，我们只需要使用就是了。这一节我们主要实现多线程抓取网页连接信息，并将信息存储在队列里面。引入新包在pom中引入新包，具体如下： org.apache.commonscommons-lang3 org.jsou...

spring-cloud-gateway 响应返回信息不全问题

bingfengshike的专栏

10-26

1343

@Override public Mono<Void> filter(ServerWebExchange exchange, GatewayFilterChain chain) { if (!logConfig.isLogOpen()) { return chain.filter(exchange); } GatewayContext gwContext = exchange.getAttribute(GatewayContext.GW_CONTEXT.

crawler4j抓取页面使用jsoup解析html时的解决方法

10-26

通过以上步骤，我们就能确保`contentData`包含了正确编码的网页内容，从而在使用`jsoup`解析时避免乱码问题。当然，这只是一个通用的解决方案，实际情况可能更为复杂。如果页面编码不固定，可能需要更复杂的逻辑来...

解决Android开发中的jsoup jar包问题

- **注意事项**：由于网络环境的不确定性和网页结构的复杂性，使用Jsoup进行网页数据抓取和解析时，应考虑到异常处理和网络请求的安全性问题。 #### 5. Jsoup版本更新与维护 - **版本管理**：Jsoup库会定期更新，...

SpringBoot+jsoup爬虫

05-14

SpringBoot与Jsoup的结合提供了一个高效、灵活的解决方案来实现这个目标。本文将深入探讨如何利用这两个强大的工具进行网页数据提取。首先，让我们了解下**SpringBoot**。SpringBoot是基于Spring框架的微服务开发...

jsoup-1.8.1.jar

10-16

例如，`.text()`方法用于获取元素的文本内容，`.attr("attributeName")`用于获取指定属性的值。 5. **链接处理**：jsoup能解析和处理相对及绝对链接，可以进行URL规范化和重写，这对于爬虫和自动化测试尤其有用。 ...

Java 解决 Jsoup 因为未加载完毕获取不到页面数据

zuichu_2001的博客

09-23

3092

使用 Jsoup 爬取页面数据页面也因为加载获取不到我采用了Selenium 自动化测试 + Jsoup 结合 //根据谷歌浏览器版本下载 chromedriver.exe 下载地址 http://npm.taobao.org/mirrors/chromedriver System.setProperty(“webdriver.chrome.driver”, “F:\Python39\chromedriver.exe”); //创建一个WebDriver WebDriver driver = new C

http请求循环调用返回数据抓取不全解决

zlsuperjj的博客

08-25

6918

最近碰到一个问题，就是频繁调用http请求，返回的数据出现缺失的情况。特此记录下解决过程。先上代码普通的get调用方法 public String sendGet(String urlStr) throws InterruptedException { try { //获取httpURLConnection对象 U...

selenium-java 解决 jsoup遇到javascript重定向无法获取内容的问题

qq_41686921的博客

04-05

847

问题通过jsoup爬网站的时候，遇到javascript重定向，递归无果，查了许多资料都无法解决在这里插入代码片利用selenium龟速实现，先解决问题 maven依赖  <depe...

Jsoup获取部分页面数据失败 org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, appl

qq_39380155的博客

04-20

383

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。今天在学习jsoup的时候报了一个错，具体信息如图：通过网上查阅资料，发现是需要添加ignoreContentType(true)，也就是忽略ContextType的检查。原代码： return ...

jsoup入门

dengjuyan2649的博客

07-27

484

jsoup是一款Java的HTML解析器，主要用来对HTML解析。官网中文文档在爬虫的时候，当我们用HttpClient之类的框架，获取到网页源码之后，需要从网页源码中取出我们想要的内容，就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。虽然jsoup也支持从某个地址直接去爬取网页源码，但是只支持HTTP，HTTPS协议，支持不够丰富。所以，主要还...

Java简单爬虫 jsoup工具包

l765692971的博客

02-19

872

首先导入一个爬虫的工具包: jsoup-1.13.1.jar //测试爬虫的网址(爬取王者荣耀英雄的网址) static String url="https://pvp.qq.com/web201605/herolist.shtml"; //文件存放的地址 static String path="D://爬虫测试/"; public static void getImgs(String url){ //加载对应网址上的Html代码 Jsoup.connect(