目录
大数据题目
1、32位无符号整数的范围是0~4294967295,现在有一个正好包含40亿个无符号整数的文件,在整个范围上必定存在没出现过的数。可以使用最多1GB的内存,怎么找到所有未出现过的数?
哈希分流:经过哈希函数计算后%m,分成m个小文件,在小文件中重复统计
位图:准备长度为2^32/8字节的数组,第i个位信息代表i数是否出现过,遍历40亿个数,描黑,最后白的就为没出现过的
2、内存限制为3KB,找一个没出现过的数:
分区间统计。3KB,开一个无符号整数的数组,数组长度往下取为2某次方的数(512),保证内存不爆。将范围分为512份,统计所有数词频记录到数组中,如果某一份数量不到范围/512个,说明这个范围的数字有的没有,范围缩小,继续筛选。
没有空间,只用几个有限变量:用两个变量分为左右两个部分统计词频,某一部分的词频数量不足一半就继续缩小范围二分统计。
3、统计一百亿数据中排行前一百的数据:
哈希函数分流为几个小文件,文件为大根堆,总堆也为大根堆。先在各个小文件中peek顶到总堆中。总堆弹出最大,弹出的数所属的小文件中的堆顶同样弹出,再peek到总堆中,直到出100个数
4、用1G内存统计40亿个数中出现两次的数:
用双倍位图,位图的两个位来表示信息,00出现0次,01出现1次,10出现两次、11出现多次。
5、使用最多10MB内存,怎么找到这40亿个数的中位数:
申请10MB/4B长度的数组,词频统计,找中位数所在的范围继续找中位数
6、10G无序数据用5G内存排序输出到文件中最后新文件有序:
1)准备一个小根堆(维持i出现k次的记录),小根堆的大小为5G/4B(可以/大一点 堆内部有索引空间,要预留足够的位置)。用该堆从数的无序数最小开始排(-2^31 ~ -2^31 + 堆长度),每次排一个范围的数,排完输出到文件中。
2)准备一个大根堆,统计大根堆长度个的数。遍历时如果达到大根堆长度,看看能否加入,如果大于大根堆就不可加入,小于大根堆就弹出堆顶,加入大根堆。排完一遍维持了堆顶最大以下的记录从小到大输出到新文件中,第二次就排大于前一次堆顶的数。
位运算题目
1、给定两个有符号32位整数a和b,返回a和b中较大的。不用任何比较判断。
可以把if-else换成加号两侧互斥的等式
package com.wtp.基础提升.位运算; public class 交换两数 { //保证输入的n不是1就是0 //1 -> 0 //0 -> 1 public static int flip(int n) { return n ^ 1; } //n是非负数,返回1 //n是负数 返回0 public static int sign(int n) { return flip((n >> 31) & 1); } public static int getMax1(int a,int b) { int c = a - b;//可能溢出 int scA = sign(c);//若a > b 返回1 a < b 返回0 int scB = flip(scA);//相反状态 return a * scA + b * scB; } public static int getMax2(int a,int b) { int c = a - b; int sa = sign(a); int sb = sign(b); int sc = sign(c); int difSab = sa ^ sb;//a和b的符号是否相同,相同为0不同为1 int sameSab = flip(difSab);//a和b的符号是否相同,相同为1不同为0 //返回a的条件为 符号相同时返回a-b是否为正数,符号不同时返回a是否为正数 int returnA = difSab * sa + sameSab * sc; int returnB = flip(returnA); return returnA * a + returnB * b; } }
2、判断一个数是否是2的几次幂、4的几次幂
2的幂的数二进制只有一位1 判断一个数是否是2的幂:取最左的1看是否和原来相等、减一再与自己看是否等于0 判断一个数是否是4的幂:是2的幂的同时,与上0x55555555是否等于0 等于0就是
package com.wtp.基础提升.位运算; public class 判断一个数是否是2或4的几次幂 { public static void main(String[] args) { int num = 17; System.out.println(isTwo1(num)); System.out.println(isTwo2(num)); System.out.println(1 >> 1); int num2 = 64; System.out.println(is4Power1(num2)); System.out.println(is4Power2(num2)); } public static boolean isTwo1(int num) { int moreRightOne = num & (~num + 1); return num == moreRightOne; } public static boolean isTwo2(int num) { return ((num - 1) & num) == 0; } public static boolean is4Power2(int num) { int moreRightOne = num & (~num + 1); if(num != moreRightOne) { return false; } int count = 0; while(moreRightOne != 1) { count++; moreRightOne = moreRightOne >> 1; } return count % 2 == 0; } public static boolean is4Power1(int num) { return ((num - 1) & num) == 0 && (num & 0x55555555) != 0; } }
3、位运算实现加减乘除
两个三十二位数进行加减乘除运算不用运算符: add:a、b无进位相加(异或)、再获取进位信息(与)不断累加直到进位信息为0时无进位相加的信息就是答案 minus:取得b的相反数(取反加一)再传入add multi:取b的最右位,如果是1就加上当前a,0不操作,每次a左移b右移一位 div:被除数循环判断右移i位后是否比除数大,大就调用minus减去这个数并用res标记这位数,直到遍历结束
package com.wtp.基础提升.位运算; public class 位运算实现加减乘除 { public static void main(String[] args) { System.out.println(19 << 0); System.out.println(multi(8,-3)); System.out.println(div(9,3)); } //如果a+b传入的就溢出的 不管 public static int add(int a,int b) { int sum = a; while(b != 0) { sum = a ^ b;//无进位相加信息 b = (a & b) << 1;//进位信息 a = sum; } return sum; } //返回相反数 取反加1 public static int negNum(int n) { return add(~n,1); } //a加上b的相反数 public static int minus(int a,int b) { return add(a,negNum(b)); } //如果a+b传入的就溢出的 不管 public static int multi(int a,int b) { int res = 0; while(b != 0) { if((b & 1) == 1) { res = add(res,a); } a <<= 1; b >>>= 1; } return res; } public static boolean isNeg(int n) { return n < 0; } public static int div(int a,int b) { int x = isNeg(a) ? negNum(a) : a; int y = isNeg(b) ? negNum(b) : b; int res = 0; for(int i = 31; i > -1;i = minus(i,1)) { if((x >> i) >= y) { res |= (1 << i); x = minus(x,y << i); } } return isNeg(a) ^ isNeg(b) ? negNum(res) : res; } }