java网络图片抓取及其引发的相关问题

这篇博文以及上篇博文的“诞生”的原因都是因为本人想抓取一下蛋蛋网mz图引出的(声明:本人是一个志趣高洁,脱离了低级趣味的程序员,抓取mz图片只为技术研究使用得意)。


抓取网络图片是个比较简单的过程,基本思路如下:

基于上篇博文,已经拿到图片地址了,将图片地址(使用URLConnection)转化为输入流。

将输入流和输出流对接,存到本地。


一般网站可能会防止图片抓取,这时候的解决办法就是模拟浏览器访问,添加header。


思路简单,但是当解析mz图网页的HTML时,解析不出src,看了一下html源代码,为了防止抓取,蛋蛋网对图片地址做了处理,直接解析不出来。

继续分析,发现蛋蛋网通过JavaScript对图片地址进行了处理,接下来有两个选择:

1.在java中执行javascript 

2.将蛋蛋网图片地址Javascipt处理函数用java重写一遍


最后我选择的第二种方法(第一种方法充满了大坑),其中经过了MD5加解密,base64加解码,各种转化,截取,终于解析出了图片地址(图片其实是保存在新浪图片服务器上的),蛋蛋网应该只保存了图片地址。

运行代码,喝杯茶后,接下来,就是欣赏艺术的时间得意


如有错误,欢迎指正

end

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值