谈谈我的面试经历:大数据开发如何面试?

1

面试官:您好,请讲述一个自己最熟悉的项目,自己在其中的贡献?

最优解答:

项目规模和介绍:某项目,是为多少用户提供什么服务,哪些功能和核心模块。

技术架构:遇到高并发,高可用的实际问题是什么,因此采用Hadoop离线处理和Spark实时计算。

技术难点一:离线处理中的数据处理,比如数据表的行转列,JSON转Java,复杂的SQL语句等。

技术难度二:实时处理时的常见内存溢出问题和参数调优。

技术难度三:设计数据流,分业务和分模块说。

主要贡献:代码行数,框架集成,数据处理,性能调优,整体设计等。

【大数据开发学习资料领取方式】:加入大数据技术学习交流群458345782,点击加入群聊,私信管理员即可免费领取

2

面试官:您好,请讲述一个自己掌握的核心技术,以及如何应用?

最优解答:

·J2EE:大数据采集单元,大数据分析单元的主要工作,如何做出服务,如何SpringBoot集成Hadoop,Spark。

·Hadoop:多少个节点,高并发,高可用的实际问题中解决数据倾斜,数据处理,数据统计,数据离线分析等。

·Spark:实时处理中的数据处理,比如算子,复杂的SQL语句等。

·机器学习 :分析的数据集生成,数据处理,数据建模,数据预测,数据模型调优。

·系统设计:设计数据流,分业务和分模块说。

·个人价值:代码行数,关键问题处理等。

3

面试官:您好,请讲述一个高并发的框架或者实现方法?

最优解答:

·Mina:开发高性能和高可用性的网络应用程序的基础框架。

·Netty:开发高性能和高可用性的网络应用程序的基础框架。

·内存分配方式:HeapByteBuffer和DirectByteBuffer分配。

·线程模型:分析的数据集生成,数据处理,数据建模,数据预测,数据模型调优。

MINA是用于开发高性能和高可用性的网络应用程序的基础框架 通过使用MINA框架可以省下处理底层I/O和线程并发等复杂工作,开发人员能够把更多的精力投入到业务设计和开发当中 MINA框架的应用比较广泛,应用的开源项目有Apache Directory、AsyncWeb、Apache Qpid、QuickFIX/J、Openfire、SubEthaSTMP、red5等,基于java NIO类库开发;采用非阻塞方式的异步传输; 事件驱动;支持批量数据传输;支持TCP、UDP协议;串口通讯程序; 控制反转的设计模式(支持Spring);采用优雅的松耦合架构;可灵活的加载过滤器机制;单元测试更容易实现; 可自定义线程的数量,以提高运行于多处理器上的性能;采用回调的方式完成调用,线程的使用更容易。

Netty是一个高性能、异步事件驱动的NIO框架,它提供了对TCP、UDP和文件传输的支持。作为当前最流行的NIO框架,Netty在互联网领域、大数据分布式计算领域、游戏行业、通信行业等获得了广泛的应用,一些业界著名的开源组件也基于Netty的NIO框架构建。Netty 利用 Java 高级网络的能力,隐藏其背后的复杂性而提供一个易于使用的 API 构建一个客户端/服务端,其具有高并发、传输快、封装好等特点。高并发 :Netty是一款基NIO(Nonblocking I/O,非阻塞IO)开发的网络通信框架,对比于BIO(Blocking I/O,阻塞IO),他的并发性能得到了很大提高 。传输快 :Netty的传输快其实也是依赖了NIO的一个特性——零拷贝。封装好 :Netty封装了NIO操作的很多细节,提供易于使用的API,还有心跳、重连机制、拆包粘包方案等特性,使开发者能能够快速高效的构建一个稳健的高并发应用。

mina  buffer 分配方式:默认实现采用了 HeapByteBuffer,每次都是直接调用  ByteBuffer.allocate(capacity) 直接分配.buffer 分配大小预测:根据每次读事件实际读到的字节数计算分配 buffer 的大小,若实际读到字节将 ByteBuffer 装满,说明来自网络的数据量可能较大而分配 buffer 容量不足,则扩大 buffer 一倍。若连续 2 次读到的实际字节数小于 buffer 容量的一半,则缩小 buffer 为原来的一半

netty buffer分配方式:默认实现采用了DirectByteBuffer,并且实现了 buffer cache,只要 buffer 大小不改变会重复利用已经分配的 buffer.buffer 分配大小预测:初始化了一张 buffer size 静态分配表如下(截取部分),假如当前默认 buffer 为 2048

更多大数据学习相关资源请关注公众号:ITdaima

小礼物走一走,来简书关注我

### 回答1: 大数据开发工程师的面试题通常包括:1. 对大数据技术的理解;2. 如何使用Hadoop构建大数据系统;3. 如何使用MapReduce来处理大数据;4. 如何使用Spark分析大数据;5. 如何使用NoSQL数据库构建大数据系统;6. 如何使用数据挖掘技术对大数据进行分析;7. 如何使用机器学习算法对大数据进行分析。 ### 回答2: 大数据开发工程师的面试题可以包括以下几个方面。 首先,面试官可能会问到你对大数据的理解。你可以从数据的规模、速度、多样性等方面来描述大数据的特点以及其应用场景,例如互联网公司的用户行为分析、金融行业的风险管理等。 其次,面试官可能会询问你对Hadoop的理解和使用经验。你可以介绍Hadoop的基本概念和架构,以及常用的Hadoop生态系统组件,如HDFS、MapReduce、Hive等,并举例说明你在实际项目中如何使用Hadoop解决问题。 接着,面试官可能会考察你对数据处理和分析的能力。你可以讲解如何使用Spark进行大规模数据处理和分析,如使用Spark SQL进行数据查询和分析、使用Spark Streaming进行实时数据处理等。 此外,面试官还可能会问到你在数据清洗和ETL方面的经验。你可以提及你在数据清洗中遇到的常见问题,如数据缺失、重复数据等,并解释你是如何通过编写清洗规则或使用工具进行数据清洗和ETL操作的。 最后,面试官可能会问到你对数据安全和隐私保护的了解。你可以谈谈数据安全和隐私保护的重要性,并说明你在实际项目中如何遵守数据保护的相关规定,如使用加密算法保护敏感数据、设置权限控制规则等。 总之,在面试过程中,展示你对大数据的理解、对常用技术的掌握以及在实际项目中的应用能力是非常重要的。并且,要能够清晰地表达自己的观点,并结合实际经验进行解答。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值