今天在解决爬虫对加密参数的分析时,需要使用到base64解码。但是过程中出现了TypeError:Incorrect padding的错误提示。以下是解决方法,以便查阅。
其实正常使用base64是不会出现问题的,就比如下面的代码。
import base64
a = b'hello'
b = base64.b64encode(a)
# 对a进行base64编码
print(b) # b'aGVsbG8='
# 对b进行base64解码,也就是把a编码过的内容解码
c = base64.b64decode(b)
print(c) # b'hello'
上面代码的编码结果是完整的,所以直接解码出来没有问题。如果编码结果不完整,比如上面代码中如果给定的bytes对象的值是b'aGVsbG8‘ ,就会出现TypeError:Incorrect padding异常提示。比如下面的代码就报错了。
import base64
a = b'aGVsbG8'
b = base64.b64decode(a)
print(b) #binascii.Error: Incorrect padding
解决方法如下:
import base64
a = b'aGVsbG8'
missing_padding = 4 - len(a) % 4
if missing_padding:
a += b'=' * missing_padding
b = base64.b64decode(a)
print(b) # b'hello'
这样问题就解决了,其实就是在后面加等号。而missing_padding计算的就是等号的个数。如果你算出了=号的数量,直接加=号也是可以的。比如下面的代码:
import base64
import chardet
a = b'aGVsbG8'
c = base64.b64decode(a + b'=')
print(c) # b'hello'
至于计算是怎么来的,需要了解下base64的原理。用一个等式表示就是,3x8 = 4x6,也就是,以前能存3字节的,现在能存4字节,只不过把原先的位bit进行了分割,而且每一个字节是用6位来表示。因为分割后的每一个字节只有6位了,不足的两位就以0来填充。而且这4个字节可以看做是一个整体,base64解码后的bytes长度至少为4且为4的倍数,不足部位以‘=’填充。
听的很迷糊?其实是我表达的不好,而且懒得画图。还是看代码:
import base64
# 原始1x8 =8位
a = b'h'
# base64编码后 8 / 6 = 1 余2,所以至少需要2个字节位,为了满足能被4整除,需要补充两个=号
b = base64.b64encode(a)
print(b) # b'aA=='
# 把编码后的结果处理一下,去掉‘=’号
c = b.decode('utf-8').rstrip('=')
# 对结果进行解码,前面已经算出需要2个=号了,直接加上就好
d = base64.b64decode(c.encode('utf-8') + b'=' * 2)
# 还原结果
print(d) # b'h'
这样就一目了然了,关于base64引发异常总结就到这里。