有时候抓取网页信息的时候,有些网页需要先登录才能查看到真正的内容。这样用我们上一篇文章的方法是无法直接抓取数据的。
例如抓取网页:http://www.findacode.com/code-set.php?set=CPT 上的 CPT codes
登录前,显示如下:
登录后显示:
我们要抓取的信息是登录后显示的内容。
解决这个问题的方法很简单。Jsoup给我们提供了cookies的功能,我们只要将我们自己账号登录的cookies传递给Jsoup就可以实现登录用户的访问。
1。 首先,登录自己的账号。
2。然后,在chrome中 Chrome -> setting->Con