数据分析真题日刷 | 网易2018校园招聘数据分析工程师笔试卷

七月第一天,希望大家下半年都能「翻身」!

  • 今日真题
    网易2018校园招聘数据分析工程师笔试卷(来源:牛客网)
  • 题型
    客观题:单选20道;主观题:问答3道
  • 完成时间
    120分钟
  • 牛客网评估难度系数
    四颗星

❤️ 「更多数据分析真题」

《数据分析真题日刷 | 目录索引》

1. 某二叉查找树的每个节点存放一个整数,中序遍历该树得到的序列为3,4,5,则该树的画法有多少种情况?

A. 3
B. 4
C. 5
D. 6

正确答案:C

二叉树的遍历非常重要!!《京东2019春招京东数据分析类试卷》的二叉树遍历出现在第二题,而网易直接放在了第一题。

?二叉树前序、中序、后续遍历的基础知识:
在这里插入图片描述
(来源: https://blog.csdn.net/qq_33243189/article/details/80222629

「本题分析思路」
已知中序遍历为 3,4,5,

  1. 若以3为根结点,根据中序遍历,3的左边不能有分支,可能的情况有:
    在这里插入图片描述
    3为根结点,我们一个一个来尝试。
    (1)3的右边放4,接着如果4的右边是5,可以;
    (2)3的右边放4,接着如果4的左边是5,根据中序遍历则应该为3,5,4,则不符合题意;
    (3)3的右边放4的情况讨论完了;考虑3的右边放5,则4必须放在5的左边才能满足题意。

  2. 若以4为根结点,根据中序遍历,只有一种可能:
    在这里插入图片描述

  3. 若以5为根结点,根据中序遍历,可能的情况有:
    在这里插入图片描述

2.字符串有5个字符q,w,e,r,t,出现的频率分别为1,2,3,4,5,如果采用Huffman编码对字符串编码,则每个字符编码的平均长度是()?

A. 2.2
B. 2.4
C. 2.6
D. 2.8
E. 3.0

官方答案:C
民间答案:B

?哈夫曼编码

哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。

哈夫曼编码的理解和方法,强烈推荐参考哈夫曼编码的理解(Huffman Coding)》(来源: https://blog.csdn.net/qq_36653505/article/details/81701181

看完之后,这道题就会做了。下面,(现学现卖的)我为大家解析。

「本题解析」
该题的题设和参考博客里的举例都一模一样,
在这里插入图片描述
编码:
q-> 010
w-> 011
e-> 00
r-> 10
t-> 11
平均长度 = (3+3+2+2+2) / 5 = 2.4

3. 下面关于排序的空间复杂度说法不正确的有()(N为被排序数据的长度)

A. 堆排序的空间复杂度为O(1)
B. 冒泡排序的空间复杂度为O(1)
C. 归并排序的空间复杂度为O(N)
D. 插入排序的空间复杂度为O(N)
E. 递归实现的快速排序的空间复杂度为O(logn)

正确答案:D

?空间复杂度 & 时间复杂度
?各种排序方法

  • 强烈参考
  1. 《常用的排序算法的时间复杂度和空间复杂度
    https://www.cnblogs.com/angelye/p/7508292.html
  2. 《时间复杂度和空间复杂度》https://segmentfault.com/a/1190000016168727

4.一个简单无向图有10个顶点,11条边,如果用邻接矩阵来存储它,那么矩阵里面会有多少个0?

A. 11
B. 22
C. 89
D. 78
E. 无法表达

正确答案:D

?数据结构 - 图

「题目解析」

邻接矩阵有10^2个元素,无向图的邻接矩阵是对称的,即图中的一条边对应邻接矩阵的两个非零元素,也就是211,
所以矩阵中有 10^2 - 2
11 = 100 - 22 = 78 个0。

5.以下hive sql语法正确的是

A. select * from a inner join b on a.id<>b.id
B. select * from a where a.id in (select id from b)
C. select sum(a.amt) as total from a where a.total>20
D. select * from a inner join b on a.id=b.id

正确答案:D

「题目解析」
A. <> 表示“不等于”,inner join应该基于相等的key,所以A错,D正确;
B. id 有歧义,改为b.id
C. where不支持使用别名,这和sql语句执行顺序有关。个人觉得应该group by什么,然后having a.total > 20。

6. 以下关于hive以及Hadoop生态系统中其他组件的说法正确的是

A. Hbase依赖HDFS存储数据,实现的编程语言为Java
B. Hbase是一个面向列分布式数据库,和hive不同的是,hbase能够在它的数据库上实时运行,而不是运行mapreduce任务
C. hive不支持数据更新,延迟比较小,可用于实时查询系统
D. hive采用了SQL的查询语言HQL,其支持了SQL中的所有特性

正确答案:B
(求解析A)

7.大表1000万条数据, 小表1000条数据, 为提高查询效率两行表关联时通常做法是

A. 大表在前
B. 大表在后
C. 小表子查询
D. 先处理成一张表在查询

正确答案:A

?SQL表连接查询

表连接查询时后面的表必然会进行全表扫描,所以数据少的放后面,提高sql语句的执行效率

  • 强烈参考
  1. 百度知道 https://zhidao.baidu.com/question/521609663.html
  2. 《关于join时的顺序(小表在前, 大表在后)》 https://www.jianshu.com/p/3ba8b4fe9861

8.现有一个会议室预定系统,包含如下表实体:用户表(用户id,用户名,部门,职位);会议室表(会议室id,办公楼编号,楼层,会议室门牌,会议室类型id);会议室类型(类型id,容纳人数,是否有投影仪,是否有电话,是否有视频电话);会议订阅表(用户id,会议室id,订阅开始时间,订阅结束时间)

a. 请根据以上表结构写出建表的sql语句,注意选择合适的字段类型和主键。
b. 有需求查出2017-09-11 10:00:00 至 2017-09-11 12:00:00没有被人预定过的会议室id列表,要求容纳人数在10人以上,有投影仪和视频电话。请问这个sql语句如何编写,如何添加索引加速这个查下。
c. 假设订阅一个会议室包括两个步骤:1.查询出可以预定的会议室列表。2.插入会议订阅表(包含订阅的时间和用户id,会议室id)表示预定。请问如果两个用户同时预定,如何利用数据库的特性保障这两个用户不会在同一时间段预定同一个会议室。

9.有一个地区有2个市,一个来自A市的概率是20%,B市的是80%,A市得病的概率是2%,B市得病的概率是3%,现在有一个病人,问是A市的概率是?

A. 1/6
B. 1/3
C. 1/7
D. 1/14

正确答案:C

「题目解析」
利用贝叶斯公式和全概率公式,
P(A|病) = P(病|A) x P(A) / P(病) = 0.02 x 0.2 / (0.2 x 0.02 + 0.8 x 0.03) = 1/7

该题题型及解题方法,与《京东2019春招京东数据分析类试卷》第26题相同,我写了详细解答过程。可以举一反三,看看同类题型。

10. 业务背景:
网易考拉海购是网易旗下以跨境业务为主的综合型电商,以“用更少的钱 过更好的生活”为理念。销售品类涵盖母婴、美容彩妆、家居生活、营养保健、环球美食、服饰箱包、数码家电等。网易考拉海购以100%正品,天天低价,7天无忧退货,快捷配送服务,提供消费者海量海外商品购买渠道,希望帮助用户“用更少的钱 过更好的生活”。
网易考拉海购在杭州、郑州、宁波、重庆等地设有保税仓,保税仓面积为行业第一。同时,筛选最优质的仓储物流运营商保证商品能及时到达用户手中,率先在跨境中推出次日达、当日达服务,成为跨境电商第一名。
分析需求: 考拉海购的满邮门槛设置为消费满88元包邮,但经常听到身边朋友以及用户关于满邮门槛太高的声音,项目组希望你作为数据分析工程师,从数据层面帮助其解答以下问题:
1、满88元包邮这个门槛是否确实太高?影响的范围有多大?
2、如果88元门槛需要调整,调整到多少更合适?
3、对于考拉海购的邮费规则,是否还有其它建议?

要求:
1、写出你在分析过程中,需要用到哪些数据和需要知晓哪些信息
2、梳理你的分析思路,对于未知的信息,可以进行初步的假设并推演
3、最终的决策建议中,会包含哪些方面的分析和可能的建议

参考答案:

1、基本信息 所需数据:订单量、订单金额、客户数、购物车行为、订单基本信息、客户基本信息
所需信息:现行的具体邮费规则(包括具体邮费、其他包邮活动等)
总体指标:客单价=销售额/订单量、下单转化、购物车到下单转化、各环节蹦失率

2、分析思路 首先分析满88元包邮门槛是否太高,认为满邮门槛太高的用户极大可能会放弃购买,而不在乎门槛的用户会选择支付邮费或者凑单满88

a:全站合格订单中包邮订单比例、用户占比 b:支付失败的订单中金额<88元的订单比例、用户占比
c:有添加购物车行为而无下单行为用户中,购物车金额<88元的用户占比

在参考整体客单价、购物车到下单转化的情况下:
若a中比例较低,且整体客单价不超过88元,说明88元包邮不足以刺激用户的凑单包邮行为,多数用户每单价格不会超过88元,考虑整体下单转化率,若转化率偏低,则说明包邮门槛略高,若转化率高,则说明多数用户不在乎邮费,门槛不算高。
若b、c比例较高,说明由于包邮门槛过高而导致用户放弃下单的可能性较高。 (影响范围以比例说明)

个人认为可将包邮门槛设置为高出客单价10%左右,一方面与用户每单消费相差不多,另一方面可适当刺激消费。也可参考订单数在订单金额区间的频数分布,将包邮门槛设置为高出众数10%。

3、决策意见 分析: 对比新老客的购物车转化、客单价 对比活跃人群及非活跃人群的购物车转化、客单价 对比不同地区的客单价
参考不同品类、品牌的商品均单价 意见: 分新老客设置包邮门槛 分品类、分地区设置邮费
不同订单金额区间设置不同的邮费:如88元以下运费10元,88-128元运费5元,128以上免邮等类似邮费规则,以刺激消费

作者:Yahoo?
来源:https://www.nowcoder.com/test/question/done?tid=24726098&qid=165739#summary

11.考拉海购始终以用户为中心,为用户提供高品质的商品,帮助用户“用更少的钱,过更好的生活”。为了满足不同用户的需求(比如新客户的要求可能跟老客户不同,流失客户需要特殊的关怀) ,请你设计一套具体的方案,合理划分不同用户,并能给出相应的建议。

12.x+y+z+m=10,其中x,y,z,m都是正整数,那么x,y,z,m有多少种不同的取值组合?

A. 84
B. 165
C. 220
D. 112
E. 64

正确答案:A

?排列组合

「题目解析」
可以把题目理解成,将长度为10的线段分割成4份,分别为x,y,z,m。因为x,y,z,m为正整数,所以9个空,切三刀,分成四段。C9(3) = 84。

13. 有无限多水源,一个4L无刻度桶和一个9L无刻度桶,只利用这2个无刻度桶,将不可能获得____L水。

A. 1
B. 3
C. 8
D. 7
E. 11
F. 以上均能获得

正确答案:F

「题目解析」
只要 通过4和9能够拼凑出的数字,都可以得到。
A. 1 = 9 - 4 x 2
B. 3 = 4 x 3 - 9
C. 8 = 4 x 2
D. 7 = 9 x 3 - 4 x 5
E. 4 x 9 - 4 x 5

14. 有一堆石子,共80颗,甲,乙轮流从该堆中取石子,每次可以取2,4或者6颗,取得最后的石子的玩家为赢家,甲乙都足够聪明都想赢,若甲先取,则____。

A. 甲必胜
B. 乙必胜
C. 甲乙都是50%几率获胜
D. 以上说法都不正确

正确答案:B

「题目解析」
因为加一都足够聪明且想赢,所以乙总是有办法对付甲,使得自己拿到8的倍数。例如,甲取2,则乙取6;甲取4,则乙取4;甲取6,则乙取2。

15. A, B 为任意两个事件且 A ⊂ B,P(B) > 0,则下列选项必然成立的是( )

A. P(A) < P(A| B)
B. P(A) ≥ P(A| B)
C. P(A) > P(A| B)
D. P(A) ≤ P(A| B)

正确答案:D

16. 将一枚硬币独立地掷两次,引进事件: A1 = {掷第一次出现正面}, A2 = {掷第二次出现正面},A3 = {正、反面各出现一次}, A4 = {正面出现两次},则事件( )

A. A1, A2, A3相互独立
B. A2, A3, A4相互独立
C. A1, A2, A3两两独立
D. A2, A3, A4两两独立

正确答案:C

17. 设随机变量 X 与 Y 均服从正态分布,X ~ N(µ, 16), Y ~ (µ, 25), 记p1 = P{X ≤ µ - 4}, p2 = P{Y ≥ µ + 5}, 则()

A. 对任何实数µ,都有 p1 = p2
B. 对任何实数µ,都有 p1 < p2
C. 对任何实数µ,都有 p1 > p2
D. 只对µ的个别值,才有 p1 = p2

正确答案:A

「题目解析」
正负1倍标准偏差的概率 =68.3% 正负2倍标准偏差的概率 =95.5% 正负3倍标准偏差的概率 =99.7%。

所以p1 = p2 = (1-0.683)/2 = 0.1585。

18. 设随机变量X与Y相互独立,且都服从区间(0,1)上的均匀分布,则P{X^2 + Y^2 ≤ 1} =( )

A. 1/4
B. 1/2
C. π/4
D. π/8

正确答案:C

「题目解析」
P{X^2 + Y^2 ≤ 1} 即求半径为1的圆内面积占变长为2的正方形面积的百分比。

19.随机变量X ~ N(0, 1), Y ~ N(1, 4),且相关系数ρ{XY} = 1,则( )

A. P{Y = −2X − 1} = 1
B. P{Y = 2X + 1} = 1
C. P{Y = −2X + 1} = 1
D. P{Y = 2X − 1} = 1

正确答案:B

「题目解析」
设 Y = aX + b,则
E(Y) = E(aX + b) = aE(X) + b = b =1 ,解得b = 1。
即 Y = aX + 1。

ρ{XY} = Cov(X,Y) / [Sd(X) Sd(Y) ]= Cov(X, Y) / [(1 * 2)] = 1,
所以Cov(X, Y) = 2。
Cov(X, Y) = E(XY) - E(X) E(Y) = E(aX^2 + x) - 0 = aE(X^2) + aE(X) = a[Var(X) + E(X) ^2] + 0 = a(1+0) = a = 2,
所以 a = 2, Y = 2X + 1

20. 设随机变量X和Y都服从正态分布,且它们不相关,则( )

A. X与Y一定独立
B. (X, Y)服从二维正态分布
C. X与Y未必独立
D. X + Y服从一维正态分布

正确答案:C

21. 若总体X~N(µ,δ2),其中δ2已知,当样本容量保持不变时,如果置信度减小,则的置信区间( ).

A. 长度变大
B. 长度变小
C. 长度不变
D. 都有可能

官方答案:C
民间答案:B

「题目解析」
计算置信区间的公式如下,
在这里插入图片描述
已知u,δ^2,n不变,置信度减小,则Z 变小,置信区间减小。

22. 设随机变量X和Y的相关系数为0.5,E(X) = E(Y) = 0, E(X^2) = E(Y^2) = 0, 则E[(X +Y)^2] = ( ).

A. 4
B. 6
C. 8
D. 2

官方答案:B
民间答案:错题

23. 某电灯泡生产商声称,它们生产的电灯泡的平均使用时间为85小时。质检部门抽取20个电灯泡的随机样本,在的显著性水平下,检验结果是未能拒绝原假设,这意味着()

A. 该企业生产的电灯泡的平均使用时间是85小时
B. 该企业生产的电灯泡的平均使用时间不是85小时
C. 没有证据证明该企业生产的电灯泡的平均使用时间是85小时
D. 没有证据证明该企业生产的电灯泡的平均使用时间不是85小时

正确答案:D

?假设检验

「题目解析」
希望的结果放在备择假设H1,质检部的目的是检测灯泡厂商夸大灯泡寿命,即

备择假设H1: 该企业生产的电灯泡的平均使用时间小于85小时;
那么,原假设H0:该企业生产的电灯泡的平均使用时间大于或等于85小时;

检测结果未能拒绝原假设,即倾向H0,没有证据证明该企业生产的电灯泡的平均使用时间不是85小时。

小结:

与《京东2019春招京东数据分析类试卷》 比较,多了客观题(一道sql,两道业务题)。重复的知识点是,二叉树遍历贝叶斯公式。网易的笔试,统计专业知识的比重更大一些。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值