计算机字、字节、字长之某腾讯面试题

常常我们说机器是32位或者64位的,这里面具体有些什么重要的信息呢?以及我们经常挂在嘴边的字节具体是什么概念?还有经常被忽略的”字“、”字长“。

首先,我们了解这么一个知识点,计算机在处理或者运算的时候,是把数据分成一个个固定长度数据串来处理的,这些一个个的细小数据串就是计算机的字。通常,一个字包含若干个字节(每个字节通常是8位,即8个二进制数)。而且,在存储器中,每个单元存储一个字,每个字又是可以通过寻址的,字的长度是用用位来表示的,即一个字能容纳多少位二进制数,即下面的字长。

字长

计算机中每个字的位数(二进制数的个数)就叫字长。根据计算机不同,字长分为固定字长、可变字长。固定字长,即字长度不论什么情况都是固定不变的;可变字长,则在一定范围内,其长度是可变的。

计算机的字长代表计算机的处理能力,是指它一次可处理的二进制数字的数目,即一次可处理计算的数据大小。计算机处理数据的速率,自然和它一次能加工的位数以及进行运算的快慢有关。如果一台计算机的字长是另一台计算机的两倍,即使两台计算机的速度相同,在相同的时间内,前者能做的工作是后者的两倍。我们常说的32位、64位机器就是说这些机器的字长度。字长大的机器CPU,假如相同处理速度的条件下,CPU的处理数据量与字长度成正比。因此,64位机器是要比32位更强!

字节

在上面说到的字,每个字中包含若干个字节(通常一个字节占8位,8个二进制数),或者说字节是指一小组相邻的二进制数码,通常是8位(二进制数)作为一个字节。字节是构成信息的一个小单位,并作为一个整体来参加操作,比”字“小,是构成字的单位。

一个重要的信息:在计算机中,通常用多少字节来表示存储器的存储容量。例如,在C++的数据类型表示中,通常 char为1个字节,int为4个字节,double为8个字节。

有了上面的概念,我们来算算数据的存储。

1字节(byte) = 8 位(bit)   得到:

1kib = 2的10次方 bit = 1024 bit

即: 1kib=1024bit  或  1k字节(KiB,kilibyte) = 1024(字节)

同理,

1MiB=1024KiB

1M字节(MiB,Mebibyte)=1024K字节(2的20次方字节)

1GiB=1024MiB

1G字节(GiB,Gibibyte)=1024M字节(2的30次方字节)

1TiB=1024GiB

1T字节(TiB,Tebibyte)=1024G字节(2的40次方字节)

1PiB=1024TiB

1P字节(PiB,Pebibyte)=1024T字节(2的50次方字节)

1EiB=1024PiB

1 E字节(EiB,Exbibyte)=1024P字节(2的60次方字节)

因为硬盘生产商是以GB(十进制,即10的3次方=1000,如1MB=1000KB)计算的,而电脑(操作系统)是以GiB(2进制,即2的 10次方,如

1MiB=1024KiB)计算的,国内用户一般不分MB与Mib以及Kb与kib,直接把1MB=1000 KB为1Mib=1024kib,所以好多160GB的硬盘实际容量按计算机

实际的1MiB=1024KiB算都不到160GiB,这也可以解释为什么新买的硬盘“缺斤短两”并没有它所标示的那么大。

最后,我们来看一道传说腾讯的面试题目:

问题
在一个文件中有 10G 个整数,乱序排列,要求找出中位数,内存限制为 2G,多少次计算能找出中位数?
解答

假设整数为long,即长整形的,占8个字节,也就是8*8bit=64bit,因此这个long整数的取值范围是多少呢?就是无符号0~2^64次方或者有符号-2^63 ~ 2^63次方,好大好恐怖的数。

这个意思也就是说,假如无符号64bit的数,从0~2^64次方一个个存储在一起的话,会有多大呢?答案是:2^64 * 8kib>>1E数据量>>N个TB数据>>2G内存,也就是想说,2G的内存不可能放下从0~2^64次方的所有64bit数,当然,10G的文件也不可能存储完。

那么现在我把我们的问题重新描述下:数字区间是0~2^64次方中间的数,大概是10G数据是整个区间所有数据大小的几万分之一,然后需要你只用2G的内存,也就是说那个几万分之一再除以一个5,来计算出这10G数据中的中位数。

我们是不是可以继续这样描述问题?变成一个猜字游戏?

数字范围是1-1000的数,总共100个,你每次最多可以从1-1000中挑选20个数字来计算出这100个数字的中位数(而且每次可以读取20个数字),怎么来做从而得到这100个数字的中位数呢?我们把1-1000范围的均匀分成20个区间,0-50,50-100,100-150,150-200,…,然后每次读取20个数,遍历一次100个数后。比如一边执行计算逻辑是这样的,20个区间,哪个区间范围出现了数字的话,就记录下来,没出现的自然不记录,比如我们遍历一次的结果是这样几种情况。

  1. 最糟糕的,每个区间都有出现,那么我们可以确定中位数出现在450-500这个区间,那么我们第二次就是把450-500继续划分成20个区间,然后继续遍历,这一次,请注意,每个区间数字范围是多少呢?只有50/20,不到3个数字啦。这样,我们就可以继续这样操作,就能精确到1!!!!
  2. 其他情况都要比最糟糕情况好处理啦,哈哈哈

所以,问题重新回归到10G数据用2G内存处理:

64bit整数取值区间数据总数据量大小有2^64 * 8k(64bit)大小数据,也就是

  1. 2G内存能存储,也就是2G字节=2*2^30K = 2^31K
  2. 对64bit整数区间做2^31均匀划分,也就是2^64 除以 2^31等于2^33次方,再遍历10G数据
  3. 不论怎样处理情况,一次遍历总能确定是哪一个均匀区间,而且这个区间的长度为2^33次方大小,并且咱们只有2^31次方的处理能力。
  4. 因此,我们还得继续均匀划分,并处理下,这是第二次处理。第二次处理,我们剩余的区间长度就只有2^33 除以2^31等于2^2=4啦,也就能毫不费力的在第三次处理得出结果啦。
以上个人自以为是的分析,欢迎交流指正!原文地址: 计算机字、字节、字长之某腾讯面试题

// -_-   larro
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值