面试做题-小红书

最新推荐文章于 2024-03-22 10:27:18 发布

xiaodazi0723

最新推荐文章于 2024-03-22 10:27:18 发布

阅读量1.6k

点赞数

分类专栏： other

本文链接：https://blog.csdn.net/xiaodazi0723/article/details/108419051

版权

other 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

按照二叉树的定义，4个节点的二叉树有多少种？（）

n个节点的二叉树一共有((2n)!)/(n! * (n+1)!)种

8！/（4！*5！）=14

下列排序算法中存储消耗最大的是？（）

快速排序，堆排序，归并，插入中内存消耗最大的是归并

空间复杂度分别是插入排序堆排序o（1）快速排序 o（logn）归并排序o（n）

你有一个logistic 回归分类器，之前你设了一个阈值 >= 0.5 就是1，<=0.5 就是0，这是如果你把阈值调整到了 0.2 , 召回率提高

Recal = TP/§，降低阈值， TP将变大。

召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。R=TP/(TP+FN)

已知数据集，有label (0, 1) , 当对该数据训练回归模型时，正样本全部选用，负样本随机抽取10%，经过训练得到模型 F，当F 对某样本 X 预估 p (label = 1) = 0.6 时，求如果不进行负样本抽样p (label = 1) 约为多少？（）

0.13

抽取10%负样本： p (label = 1) = 0.6 -> 正样本60(100%),负样本40(10%),全部负样本为400

不进行负样本抽取： p (label = 1) = 60/(60+400) = 0.13

对于样本 (A, B, C, D, E) , 已知其对应的label为 (0, 1, 1 ,0 ,1)，模型A的预估值为 (0.2, 0.4, 0.7, 0.3, 0.5), 模型 B 的预估值为(0.1, 0.3, 0.9, 0.2, 0.5)，请问模型 A 和模型 B 的 AUC 哪个更高（）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VwRB2yyc-1599286652169)(C:\Users\admin\AppData\Roaming\Typora\typora-user-images\image-20200905134218514.png)]

模型A对应概率为(0.4,0.2)，(0.4,0.3)，(0.7,0.2)，(0.7,0.3)，(0.5,0.2)，(0.5,0.3)，

可得其对应AUC为：(1+1+1+1+1+1)/6 = 1。同理，模型B也等于1。

有数据集正样本 120 个，负样本 80 个，模型 F 对样本进行预估预测为正样本的有 80个（其中真的是正样本的是60个），请问该模型的召回率是多少？（）

50%

为什么要 DNN 模型中需要规范化特征?（）

损失函数收敛更快

两种方法 1.minmax normalization（最值归一） X-Max/Min-Max 2.Standard Normalization（标准化）（X-\mu ）/\sigma 加快梯度下降、统一量纲

当你使用20轮的梯度下降选取 α=0.3, 并且每轮计算 J(θ) ，当你发现J(θ)一直上涨时，下面哪些结论看起来靠谱？（）

你可以考虑用一个更小的 α=0.1

学习率过大会造成震荡

你有一个logistic 回归分类器，之前你设了一个阈值 >= 0.5 就是1，<=0.5 就是0，这是如果你把阈值调整到了 0.9 , 下面哪些是对的？

召回率降低

关于 online learning 哪些说法是正确的？（）

Online learning 期望在一个流式的数据上进行训练

一个service 的请求可以被多核并行处理的，当qps = 100 的时候 4 core cpu利用率（40% ）, 平均相应时间 53ms，当qps = 150 的时候 cpu利用率（60 % ), 平均相应时间大约是多少？（）

70ms

qps是每秒查询率相当于要处理的任务任务从100变成150 效率从40变成60 时间从53变成多少? 53*（150/100）=80最接近70,因为CPU利用率的提高并不会增加并发数，而qps=并发数/响应时间

增加神经元的失活率（keep_prob） 0.5 -> 0.6 ,可能会发生下面那些情况？（）

降低正则化影响降低训练集错误率

Dropout率（keep_prob）为保留一个神经元为激活状态的概率.Dropout率越高，意味着更多神经元是激活的，正规化程度越低。Dropout是bagging的近似集成，dropout可以随机的让一部分神经元失活,这样仿佛是bagging的采样过程,因此可以看做是bagging的廉价的实现. 使用Dropout的目的是为了防止过拟合，增加keep_prob，训练集的错误会降低。

适合有监督的场景

根据一个人的喜好，预测他喜欢看小红书上的哪些笔记

给50篇男性作者的笔记和50篇女性作者的笔记，预测手稿作者的性别

给若干篇笔记，判断笔记是否适合儿童

关于MapReduce的框架，下面说法讲道理的是：

如果你有1台机器 1core， MapReduce 并没有什么用

如果你有1台多核的机器，MapReduce会有用

MapReduce的情况下，N台机器就能够提供N倍的计算能力

在 MapReduce 的情况下，数据需要分成 n^2 份 -----这个是没有道理的

小红书正在为用户开发一个垃圾回收分类器，并且正在为干垃圾、湿垃圾和可回收垃圾建立一个分类器。假设您的分类器获得了的训练集错误率0.4% 和8.2%的测试集错误率，那么下面的哪几项是值得尝试的呢？（）

添加正则项

添加更多的训练数据.

减少隐藏层 (hidden layer ) 的神经元数量

添加更多测试数据 -----错误

增加网络层数--------错误

小红书的笔记一共有14种一级类目，要你设计一个变量存储每个笔记的类目归属，哪些类型可以存储？（）

String Enum char Int8

xiaodazi0723

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
面试做题-小红书

按照二叉树的定义，4个节点的二叉树有多少种？（）n个节点的二叉树一共有((2n)!)/(n! * (n+1)!)种8！/（4！*5！）=14下列排序算法中存储消耗最大的是？（）快速排序，堆排序，归并，插入中内存消耗最大的是归并空间复杂度分别是插入排序堆排序o（1）快速排序 o（logn）归并排序o（n）你有一个logistic 回归分类器，之前你设了一个阈值 >= 0.5 就是1，<=0.5 就是0，这是如果你把阈值调整到了 0.2 , 召回率提高Recal = TP/
复制链接

扫一扫

专栏目录