Hadoop 开始学习之前的三个思想

最新推荐文章于 2023-07-05 22:31:09 发布

.道不虚行

最新推荐文章于 2023-07-05 22:31:09 发布

阅读量201

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_44387652/article/details/106379257

版权

hadoop 专栏收录该内容

53 篇文章 5 订阅

订阅专栏

Hadoop 开始学习之前的三个思想

1、面试题1
2、面试题2
3、面试题3
4、学习内容

1、面试题1

有一个超级大的文件，一台机器存储或计算无法完成的，里面存储的都是ip地址，且每行一个，计算大文件中每一个ip地址出现的次数以及出现次数最多的ip地址。
1、这个超级大的文件如何存储？
在这里插入图片描述
（1）分而治之的思想。
分布式存储：将超级大的文件切分成多个小文件，每一个小文件存储在一个服务器上。
无限的扩展服务器的个数。
横向扩展：在服务器的节点个数上扩充。
优点：无上限。
目前国内最大的分布式集群：超过12000台。
（2）纵向扩展：增加服务器的硬件配置。
在一台服务器上加硬盘，有上限。
摩尔定律：服务器的硬件性能每隔18-24个月提升一倍。硬件的发展周期便是18-24个月，需要等待。
2、怎样计算？
（1）每一个服务器中计算自己存储的小文件的每一个ip地址的出现次数。
分而治之的思想，分布式计算。
在这里插入图片描述
代码实现：
a、定义一个输入文件流（BufferedReader）进行文件读取。
b、定义一个容器存储读取的内容（map集合）。
c、进行读取，数据开始存储：
判断ip是否已经存在，不存在第一次放入（map.put(ip,1)），存在累加（map.put(ip,上一次次数+1)）。

package com.zc.hadoop;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

public class Main01 {
    public static void main(String[] args) {
        BufferedReader br = null;
        try {
            // 创建一个输入流
            br = new BufferedReader(new FileReader("./data/Main01.txt"));
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
        // 创建一个map集合
        Map<String, Integer> map = new HashMap<String, Integer>();

        // 开始读取
        String line = null;
        if (br != null) {
            try {
                while (((line = br.readLine()) != null)) {
                    // 将读取的结果存入map集合中
                    if (!map.containsKey(line)) {
                        // 不包含
                        map.put(line, 1);
                    } else {
                        // 包含
                        // 取出原值
                        Integer old_value = map.get(line);
                        // 累加
                        map.put(line, old_value + 1);
                    }
                }
                br.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        System.out.println(map);
    }
}

（2）汇总统计所有服务器的计算结果，得到最终结果。
（3）在汇总统计的结果上，求出现次数最多的ip（map的value最大值）。

2、面试题2

两个超级大的文件，每个文件存储的都是url，每行一个，求这两个文件中相同的 url。
1、如果两个文件都是小文件：
（1）创建两个流(BufferedReader)进行读取两个小文件。
（2）定义两个容器，分别存储两个文件的内容（set集合）。
（3）循环遍历一个set集合，判断另一个set集合中是否包含，包含则返回。

2、大文件：
（1）去重，将每一个大文件进行切分：
a、每一个文件切分，按照相同的分区算法；
b、两个文件的大小不相同时，分区关系是相同或倍数关系。
（2）对比两个文件的对应分区。
在这里插入图片描述

3、面试题3

有一个超级大的文件，里面存储的都是url，一行一个url，用户给定一个url，快速判断这个url是否在这个文件中。

1、小文件：
（1）流读取信息；
（2）容器存储（set集合）；
（3）判断是否存在（set.contains()）。

2、大文件：
（1）快速检索（数组比较擅长查询（按照下标查询）），数组计数排序思想；
（2）追求速度，便有舍弃。
在这里插入图片描述

4、学习内容

下节学习内容：大数据入门了解

.道不虚行

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 开始学习之前的三个思想

三个面试题一、有一个超级大的文件，一台机器存储或计算无法完成的，里面存储的都是ip地址，且每行一个，计算大文件中每一个ip地址出现的次数以及出现次数最多的ip地址。1、这个超级大的文件如何存储？（1）分而治之的思想。分布式存储：将超级大的文件切分成多个小文件，每一个小文件存储在一个服务器上。无限的扩展服务器的个数。横向扩展：在服务器的节点个数上扩充。优点：无上限。目前国内最大的分布式集群：超过12000台。（2）纵向扩展：增加服务器的硬件配置。在一台服务器上加硬盘，有上限。摩尔定律：
复制链接

扫一扫