Java基础类型详解及字节与编码关系

keep one's resolveY

已于 2023-11-03 09:57:47 修改

阅读量1.3k

点赞数 2

分类专栏： Java基础知识文章标签： java 开发语言后端

于 2022-01-15 17:58:51 首次发布

本文链接：https://blog.csdn.net/weixin_45433031/article/details/122513300

版权

Java基础知识专栏收录该内容

85 篇文章 21 订阅

订阅专栏

一、基础类型位数

bit -- 位：位是计算机中存储数据的最小单位，指二进制数中的一个位数，其值为“0”或“1”。

byte -- 字节：字节是计算机存储容量的基本单位，一个字节由8位二进制数组成。在计算机内部，一个字节可以表示一个数据，也可以表示一个英文字母，两个字节可以表示一个汉字。

1Byte=8bit (1B＝8bit)

1KB=1024Byte(字节)=8*1024bit     //kb的b就是byte的意思

1MB=1024KB

1GB=1024MB

1TB=1024GB

只有8种基本类型可以算.其他引用类型都是由java虚拟机决定的自己不能操作

基本数据类型：（1字节 = 8bit）
        
byte     1字节      8  bit
short    2字节      16 bit
int      4字节      32 bit
long     8字节      64 bit   long型的结尾需要加L
float    4字节      32 bit   对于float类型，需要加上f后缀。
double   8字节      64 bit   小数默认为double
char     2字节      16 bit
boolean  1字节      1  bit

二、基本数据类型和引用数据类型

基本类型：8个：char boolean byte short int long float double

类型
整数类型	byte short int long
浮点类型	float double
字符类型	char
布尔类型	boolean

引用类型：３个：类接口数组

基本类型所占字节

当变量作为作为类成员使用时，java才确保给定其初始值，防止程序运行时错误在这里插入图片描述
基本数据类型的包装类都属于引用类型所以包装类的初始化值都为null

三、基本数据类型和引用数据类型的区别

1.存储位置不同

1、基本数据库类型，不牵扯内存分配问题
被创建时，栈上给其划分一块内存，数值直接存在栈上，在方法中定义的非全局基本数据类型变量的具体内容是存储在栈中的

2、引用数据类型，开发者为其分配空间
栈上给其引用(句柄)分配一块内存，对象的具体信息都存储在堆内存上，后由栈上引用指向堆中对象地址，具体内容都是存放在堆中的，而栈中存放的是其具体内容所在内存的地址

2.传递方式不同

都是值传递，java只有值传递
基本数据类型传递的值是数值
引用数据类型传递的值是地址

java是按值调用(值传递)还是按引用调用(引用调用)

四、位（bit）、字节（byte）、字符、编码之间的关系

位：

bit （位），数据存储的最小单位。每个二进制数字0或者1就是1个位；

字节：

8个位构成一个字节；即：1 byte (字节)= 8 bit(位)；

字符：

a、A、中、+、*、の......均表示一个字符；

一般 utf-8 编码下，一个汉字字符占用 3 个字节；

一般 gbk 编码下，一个汉字字符占用 2 个字节；

字符集：

即各种各个字符的集合，也就是说哪些汉字，字母（A、b、c）和符号（空格、引号..）会被收入标准中；

编码：

byte[]是字节数组，字节数组中可以存放任何二进制数据。如果这些二进制数据能够按照某种编码表翻译成特定字符，那么就可以说其中存放的是字符的编码。

规定每个“字符”分别用一个字节还是多个字节存储，用哪些字节来存储，这个规定就叫做“编码”。（其实际是对字符集中字符进行编码，即：每个字符用二进制在计算中表示存储）；

通俗的说：编码就是按照规则对字符进行翻译成对应的二进制数，在计算器中运行存储，用户看的时候（比如浏览器），在用对应的编码解析出来用户能看懂的；

（1）标准ASCii字符集：有96个打印字符，和32个控制字符组成；一共96+32=128个；

用7位二进制数来对每1个字符进行编码；

而由于7位还还不够1个字节，而电脑的内部常用字节来用处理，每个字节中多出来的最高位用0替代；

0 000 0000.........................0

0 111 1111..........................127；从0----127，来表示128个ACSii编码；

比如：字符 'A'----------在计算器内部用0100 0001 （65）来表示；

字符'a'-----------在计算器内部用0 110 0001 （97）来表示；

注意：'10'在计算器内部是没有编码的，因为它是字符串，而不是单个字符。可以分别对1,0字符编码存储；

（2）扩展ASCii字符集：将标准的ASCii最高位1，得到十进制代码128---255（1 000 0000----1 111 1111）；所以字符集一共有0---255, 256个字符；

（3）gb2312字符集: 所有汉字字符在计算机内部采用2个字节来表示，每个字节的最高位规定为1【正好与标准ASCii字符（最高位是0）不重叠，并兼容】，不支持繁体字；

所以：gb2312表示汉字的编码为：[129--255][129--255] (两个字节，每个字节最高位是1)；小于127的字符，与ASCii编码相同；

（4）gbk字符集：gb2312的扩充，兼容gb2312，除了收录gb2312所有的字符外，还收录了其他不常见的汉字、繁体字等；

gbk中字符是一个或两个字节，单字节字符00--7F（0---127）这个区间和ASCII是一样的；

双字节字符的第一个字节是在81--FE（129--254）之间。通过这个可以判断是单字节还是双字节；

即：在gbk字符编码，如果第一个字节是>128的，则再往后找一个字节，组成汉字；如果第一个字节<128,则表示的是一个单字节（此时和ASCII是一样的）；

（5）Unicode字符集：容纳世界上所有语言字符和符号的集合；（以及对应的二进制数字）；

Unicode只是一个编码规范，目前实际实现的unicode编码只要有三种：UTF-8,UCS-2和UTF-16，三种unicode字符集之间可以按照规范进行转换。

（6）utf-8编码：UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，也是一种前缀码。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部分修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或发送文字的应用中，优先采用的编码。

对于UTF-8编码中的任意字节B，如果B的第一位为0，则B独立的表示一个字符(ASCII码)；

如果B的第一位为1，第二位为0，则B为一个多字节字符中的一个字节(非ASCII字符)；

如果B的前两位为1，第三位为0，则B为两个字节表示的字符中的第一个字节；

如果B的前三位为1，第四位为0，则B为三个字节表示的字符中的第一个字节；

如果B的前四位为1，第五位为0，则B为四个字节表示的字符中的第一个字节；

因此，对UTF-8编码中的任意字节，根据第一位，可判断是否为ASCII字符；根据前二位，可判断该字节是否为一个字符编码的第一个字节；根据前四位（如果前两位均为1），可确定该字节为字符编码的第一个字节，并且可判断对应的字符由几个字节表示；根据前五位（如果前四位为1），可判断编码是否有错误或数据传输过程中是否有错误。那么：
1、单字节的字符，字节的第一位设为0，对于英语文本，UTF-8码只占用一个字节，和ASCII码完全相同；
2、n个字节的字符(n>1)，第一字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10；

3、2个字节，第一个字节的前2位是1；3个字节，第一个字节的前三位是1； 4个字节，第一个字节的前4位都是1；
位（bit）、字节（byte）、字符、编码之间的关系_prdslf001001的博客-CSDN博客_字符字节