案例地址:www.wsj.com
文章详情页访问后返回的响应内容中出现了Continue reading your article with a WSJ membership,导致无法获取完整内容。
经过观察,发现有时可以返回完整内容,有时则不返回。
案例内容:本文内容则对该请求进行分析和对页面中的数据加密进行解析。
页面分析
页面中有一段script存放了NEXT_DATA 。
NEXT_DATA 格式化
articleData 文章一些属性信息,标题、简介、时间、语言等
articleLinks 文章中的超链接
articleMeta 文章标签,出现的人名和编码
articleNewsFrontData 文章右侧的推荐栏
encryptedDataHash 未知加密数据
encryptedDocumentKey 未知加密key
hatData 顶部导航栏