编码
最简单的编码是直接给每个字符指定一个若干字节表示的整数,复杂一点的编码就需要根据一个已有的编码推算出来。
比如UTF-8编码,它是一种不定长编码,但可以从给定字符的Unicode编码推算出来。
本文将举例Url编码以及Base64编码来对编码算法进行解析
URL编码
URL编码是浏览器发送数据给服务器时使用的编码,它通常附加在URL的参数部分,例如:
https://www.baidu.com/s?wd=%E5%93%88
%E5%93%88为URL编码,是“哈”的意思。
使用URL编码是因为出于兼容性考虑,很多服务器只识别ASCII字符。对于中文,日文,德文之类的文字无法进行编码。URL编码有这些规则:
- 如果字符是
A
~Z
,a
~z
,0
~9
以及-
、_
、.
、*
,则保持不变; - 如果是其他字符,先转换为UTF-8编码,然后对每个字节以
%XX
表示
package com.tyu.code;
import java.io.UnsupportedEncodingException;
import java.net.URLDecoder;
import java.net.URLEncoder;
public class Demo01 {
public static void main(String[] args) {
try {
//编码
String keyword="哈基米";
String encodeRet=URLEncoder.encode(keyword, "utf-8");
System.out.println("编码:"+encodeRet);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
//解码
try {
String decodeRet=URLDecoder.decode("%E5%93%88%E5%9F%BA%E7%B1%B3","utf-8");
System.out.println("解码:"+decodeRet);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
}
}
URLEncoder用来进行编码,URLDecoder用来进行解码
URL编码的目的是把任意文本数据编码为%前缀表示的文本,便于浏览器和服务器处理;
Base64编码
URL编码是对字符进行编码,表示成%xx的形式,而Base64编码是对二进制数据进行编码,表示成文本格式。
Base64编码可以把任意长度的二进制数据变为纯文本,并且纯文本内容中且只包含指定字符内容:A~Z、a~z、0~9、+、/、=。它的原理是把3字节的二进制数据按6bit一组,用4个int整数表示,然后查表,把int整数用索引对应到字符,得到编码后的字符串。
举个例子:3个byte数据分别是e4
、b8
、ad,按6bit分组得到39
、0b
、22
和2d
,分别对应十进制57、11、34、45,通过索引计算结果为5Lit4。
//编码
byte[]buf= {(byte) 0xe4, (byte) 0xb8, (byte) 0xad};
String base64encoded = Base64.getEncoder().encodeToString(buf);
System.out.println(base64encoded);
//解码
byte[] byteArrray=Base64.getDecoder().decode("5Lit");
for(byte b:byteArrray) {
System.out.println(Integer.toHex