Java网络爬虫crawler4j学习笔记<2> Util类

1.源代码

package edu.uci.ics.crawler4j.util;
public class Util {
    // 将long类型(8字节64位)变量,转化为长度为8的byte数组。变量的高位位于byte数组的前面
    public static byte[] long2ByteArray(long l) {
        byte[] array = new byte[8];
        int i, shift;
        //依次右移56(取前8位),48(取8-16位),40···
        for (i = 0, shift = 56; i < 8; i++, shift -= 8) {
            array[i] = (byte) (0xFF & (l >> shift));
        }
        return array;
    }
    // 将int类型(4字节32位)变量,转化为长度为4的byte数组
    public static byte[] int2ByteArray(int value) {
        byte[] b = new byte[4];
        //依次无符号右移24(取前8位),16(取8-16位),8···
        for (int i = 0; i < 4; i++) {
            int offset = (3 - i) * 8;
            b[i] = (byte) ((value >>> offset) & 0xFF);  //注意此处为无符号右移(左边补充0)
        }
        return b;
    }
    // 类似与int2ByteArray,增加了byte[]和offset参数
    public static void putIntInByteArray(int value, byte[] buf, int offset) {
        for (int i = 0; i < 4; i++) {
            int valueOffset = (3 - i) * 8;
            buf[offset + i] = (byte) ((value >>> valueOffset) & 0xFF);
        }
    }
    //byte数组转化为Int
    public static int byteArray2Int(byte[] b) {
        int value = 0;
        //依次左移得到前8位,8-16位,16-24位,24-32位
        for (int i = 0; i < 4; i++) {
            int shift = (4 - 1 - i) * 8;
            value += (b[i] & 0x000000FF) << shift;
        }
        return value;
    }
    //byte数组转化为long
    public static long byteArray2Long(byte[] b) {
        int value = 0; // 是否应该是 long value = 0;
        for (int i = 0; i < 8; i++) {
            int shift = (8 - 1 - i) * 8;
            value += (b[i] & 0x000000FF) << shift;
        }
        return value;
    }
    // 验证Http协议头中的contentType,是否为二进制数据,如image,audio等
    public static boolean hasBinaryContent(String contentType) {
        String typeStr = contentType != null ? contentType.toLowerCase() : "";
        return typeStr.contains("image") || typeStr.contains("audio") || typeStr.contains("video")
                || typeStr.contains("application");
    }
    // 验证Http协议头中的contentType,是否为文本制数据
    public static boolean hasPlainTextContent(String contentType) {
        String typeStr = contentType != null ? contentType.toLowerCase() : "";
        return typeStr.contains("text") && !typeStr.contains("html");
    }
}

2.需要注意的地方

2.1 函数int2ByteArray和函数int2ByteArray中使用的是无符号右移,即不管输入参数是正是负,右移过程中左边添0。其实也可以是有符号右移,因为只有相应的位置才会被与操作保留。这里不用考虑符号位,因为符号位在左移和右移的过程中都被很好的保持和恢复了。
2.2 注意到在函数byteArray2Long中,定义了一个int型的临时变量,返回的时候将int型变量强制转换为long,这里存在一些问题。

这里写图片描述
可以看到long类型负数的输入会出现一些错误,加入如下调试信息:
这里写图片描述
重新运行,结果如下
这里写图片描述
数据的十六进制对应关系如下

十进制十六进制补码
-16777216FF000000
1671168000FF0000
652800000FF00
255000000FF
1560000009C

注意-100的8字节补码为FFFFFFFFFFFFFF9C,另外32位的数据左移56位和左移24位是等价的。
解决办法:改成:value += ((long)b[i] & 0x000000FF) << shift;
(注:a & b, 结果为多少位,由a和b中的最大者决定)

2.3 函数hasBinaryContent和hasPlainTextContent用来确定content-type的类型。
具体的content-type类型可以参考对照表

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值