面试做题-小红书

按照二叉树的定义,4个节点的二叉树有多少种? ()

n个节点的二叉树一共有((2n)!)/(n! * (n+1)!)种

8!/(4!*5!)=14

下列排序算法中存储消耗最大的是?()

快速排序,堆排序,归并,插入中内存消耗最大的是归并

空间复杂度分别是 插入排序 堆排序o(1) 快速排序 o(logn) 归并排序o(n)

你有一个logistic 回归分类器,之前你设了一个阈值 >= 0.5 就是1,<=0.5 就是0, 这是如果你把阈值调整到了 0.2 , 召回率提高

Recal = TP/§, 降低阈值, TP将变大。

召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。R=TP/(TP+FN)

已知数据集,有label (0, 1) , 当对该数据训练回归模型时,正样本全部选用, 负样本随机抽取10%, 经过训练得到模型 F, 当F 对某样本 X 预估 p (label = 1) = 0.6 时,求如果不进行负样本抽样p (label = 1) 约为多少?()

0.13

抽取10%负样本: p (label = 1) = 0.6 -> 正样本60(100%),负样本40(10%),全部负样本为400

不进行负样本抽取: p (label = 1) = 60/(60+400) = 0.13

对于样本 (A, B, C, D, E) , 已知其对应的label为 (0, 1, 1 ,0 ,1),模型A的预估值为 (0.2, 0.4, 0.7, 0.3, 0.5), 模型 B 的预估值为(0.1, 0.3, 0.9, 0.2, 0.5),请问模型 A 和 模型 B 的 AUC 哪个更高()

C

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VwRB2yyc-1599286652169)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\image-20200905134218514.png)]

模型A对应概率为(0.4,0.2),(0.4,0.3),(0.7,0.2),(0.7,0.3),(0.5,0.2),(0.5,0.3),

可得其对应AUC为:(1+1+1+1+1+1)/6 = 1。同理,模型B也等于1。

有数据集 正样本 120 个, 负样本 80 个, 模型 F 对样本进行预估 预测为正样本的有 80个 (其中真的是正样本的是60个), 请问该模型的召回率是多少?()

50%

为什么要 DNN 模型中需要规范化特征?()

损失函数收敛更快

两种方法 1.minmax normalization(最值归一) X-Max/Min-Max 2.Standard Normalization(标准化) (X-\mu )/\sigma 加快梯度下降、统一量纲

当你使用20轮的梯度下降选取 α=0.3, 并且每轮计算 J(θ) ,当你发现J(θ)一直上涨时,下面哪些结论看起来靠谱?()

你可以考虑用一个更小的 α=0.1

学习率过大会造成震荡

你有一个logistic 回归分类器,之前你设了一个阈值 >= 0.5 就是1,<=0.5 就是0, 这是如果你把阈值调整到了 0.9 , 下面哪些是对的?

召回率降低

关于 online learning 哪些说法是正确的?()

Online learning 期望在一个流式的数据上进行训练

一个service 的请求可以被多核并行处理的, 当qps = 100 的时候 4 core cpu利用率 (40% ), 平均相应时间 53ms, 当qps = 150 的时候 cpu利用率 (60 % ), 平均相应时间大约是多少?()

70ms

qps是每秒查询率 相当于要处理的任务 任务从100变成150 效率从40变成60 时间从53变成多少? 53*(150/100)=80最接近70,因为CPU利用率的提高并不会增加并发数,而qps=并发数/响应时间

增加神经元的失活率 (keep_prob) 0.5 -> 0.6 ,可能会发生下面那些情况?()

降低正则化影响 降低训练集错误率

Dropout率(keep_prob)为保留一个神经元为激活状态的概率.Dropout率越高,意味着更多神经元是激活的,正规化程度越低。Dropout是bagging的近似集成,dropout可以随机的让一部分神经元失活,这样仿佛是bagging的采样过程,因此可以看做是bagging的廉价的实现. 使用Dropout的目的是为了防止过拟合,增加keep_prob,训练集的错误会降低。

适合有监督的场景

根据一个人的喜好,预测他喜欢看小红书上的哪些笔记

给50篇男性作者的笔记和50篇女性作者的笔记,预测手稿作者的性别

给若干篇笔记,判断笔记是否适合儿童

关于MapReduce的框架,下面说法讲道理的是:

如果你有1台机器 1core, MapReduce 并没有什么用

如果你有1台多核的机器,MapReduce会有用

MapReduce的情况下,N台机器就能够提供N倍的计算能力

在 MapReduce 的情况下,数据需要分成 n^2 份 -----这个是没有道理的

小红书正在为用户开发一个垃圾回收分类器,并且正在为干垃圾、湿垃圾和可回收垃圾建立一个分类器。假设您的分类器获得了的训练集错误率0.4% 和8.2%的测试集错误率,那么下面的哪几项是值得尝试的呢? ()

添加正则项

添加更多的训练数据.

减少隐藏层 (hidden layer ) 的神经元数量

添加更多测试数据 -----错误

增加网络层数--------错误

小红书的笔记一共有14种一级类目,要你设计一个变量存储每个笔记的类目归属,哪些类型可以存储?()

String Enum char Int8

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值