算法岗面试必学知识
文章平均质量分 53
算法岗面试常问问题整理(主要方向:NLP,ML,搜广推),会一直更新,直到退出算法届。【注:专栏显示质量分低是因为有些文章写的比较精简、短导致,但保证受益匪浅!】
优惠券已抵扣
余额抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
#苦行僧
这是我随心所欲记录笔记的地方,喜欢的方向:| NLP | CV | ML | 搜广推 | SE+AI |。
展开
-
T5模型: Transfer Text-to-Text Transformer(谷歌)
T5模型: Transfer Text-to-Text Transformer(谷歌)原创 2023-07-18 20:54:56 · 2326 阅读 · 0 评论 -
生成模型的常用解码策略 | greedy search & beam search & sample-topk & sample-topp
生成模型的常用解码策略 | greedy search & beam search & sample-topk & sample-topp原创 2023-07-18 21:01:03 · 679 阅读 · 0 评论 -
DL优化器精简总结 | SGD, Momentum, AdaGrad, Rmsprop, Adam, AdamW
DL优化器精简总结 | SGD, Momentum, AdaGrad, Rmsprop, Adam, AdamW原创 2023-07-27 15:06:16 · 559 阅读 · 2 评论 -
LLM微调 | Prefix-Tuning, Prompt-Tuning, P-tuning, P-tuning-v2
LLM微调 | Prefix-Tuning, Prompt-Tuning, P-tuning, P-tuning-v2原创 2023-07-31 16:58:48 · 2023 阅读 · 0 评论 -
LLM微调 | Adapter: Parameter-Efficient Transfer Learning for NLP
LLM微调 | Adapter: Parameter-Efficient Transfer Learning for NLP原创 2023-07-31 16:57:33 · 1456 阅读 · 0 评论 -
LLM微调 | LoRA: Low-Rank Adaptation of Large Language Models
LLM微调 | LoRA: Low-Rank Adaptation of Large Language Models原创 2023-07-18 21:20:26 · 1916 阅读 · 0 评论 -
随记·手撕coding | MultiheadAttention
随记·手撕coding | MultiheadAttention原创 2023-07-19 17:42:34 · 459 阅读 · 0 评论 -
随记·手撕coding | absolute positional embedding
随记·手撕coding | absolute positional embedding原创 2023-04-03 22:41:56 · 2301 阅读 · 0 评论 -
随记·手撕coding | softmax & cross entropy
随记·手撕coding | softmax & cross entropy原创 2023-04-03 17:44:28 · 169 阅读 · 0 评论 -
随记·手撕coding | knn
随记·手撕coding | knn原创 2023-04-03 16:49:12 · 108 阅读 · 0 评论 -
随记·手撕coding | kmeans
随记·手撕coding | kmeans原创 2023-04-03 16:17:23 · 129 阅读 · 0 评论 -
随记·手撕coding | layer normalization
随记·手撕coding | layer normalization原创 2023-04-03 11:41:16 · 324 阅读 · 0 评论 -
随记·手撕coding | self-attention
手撕coding·随记 | self-attention原创 2023-04-02 23:34:58 · 361 阅读 · 0 评论 -
多模态论文串讲(上) 精简笔记
多模态论文串讲(上) 精简笔记原创 2023-03-24 17:35:07 · 546 阅读 · 0 评论 -
HMM隐马尔可夫模型 | 关键原理+面试知识点
HMM隐马尔可夫模型 | 关键原理+面试知识点原创 2023-02-23 15:56:50 · 838 阅读 · 0 评论 -
CRF条件随机场 | 关键原理+面试知识点
CRF条件随机场 | 关键原理+面试知识点原创 2023-02-23 15:59:51 · 875 阅读 · 0 评论 -
ML LightGBM详细原理讲解+面试必考知识点
ML LightGBM详细原理讲解+面试必考知识点原创 2023-02-01 17:06:34 · 577 阅读 · 0 评论 -
NLP One-hot与TF-IDF原理+面试必考知识点
NLP One-hot与TF-IDF原理+面试必考知识点原创 2023-01-27 22:54:19 · 246 阅读 · 0 评论 -
ML 训练与测试数据不满足同分布 - 如何检测?如何解决?
ML 训练与测试数据不满足同分布 - 如何检测?如何解决?原创 2023-01-19 23:39:36 · 855 阅读 · 0 评论 -
多模态之CLIP -《Learning Transferable Visual Models From Natural Language Supervision》论文笔记
多模态 CLIP,Contrastive Language–Image Pre-training,用 了4亿对来自网络的图文数据集训练(我尼玛够猛的哈🐮)。文本作为图像的标签,也是自监督的预训练,用的是对比学习的方式。在下游任务时,比较牛逼的一点时,如分类任务,不用多加一些分类头来微调,只需提供和图片上的concepts对应的文本描述,直接zero-shot transfer即可,因为CLIP对这些文本和图像做cos similarity来识别出最相似的即可。原创 2022-12-19 21:12:30 · 523 阅读 · 3 评论 -
预训练模型之ELMO -《Deep contextualized word representations》论文笔记 + 高频面试题
预训练模型之ELMO -《Deep contextualized word representations》论文笔记 + 高频面试题原创 2022-12-06 17:46:55 · 395 阅读 · 0 评论 -
Trm变体之Trm-XL《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文笔记
Transformer变体之Transformer-XL《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文笔记原创 2022-12-02 16:24:06 · 431 阅读 · 3 评论 -
相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记
transformer-XL, XLNet的基础。相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记原创 2022-11-30 17:34:49 · 2640 阅读 · 3 评论 -
NLP 图神经网络之GNN、GCN、GAT原理理解+面试必考知识点
NLP 图神经网络之GNN、GCN、GAT原理理解+面试必考知识点原创 2022-11-27 22:13:24 · 1849 阅读 · 0 评论 -
NLP 自古以来的各预训练模型 (PTMs) 和预训练任务小结
NLP 自古以来的各预训练模型 (PTMs) 和预训练任务小结原创 2022-11-24 22:26:29 · 861 阅读 · 0 评论 -
ML 模型融合讲解 (bagging, boosting, stacking, blending, 加权)+面试必考知识点
总结一下构造多样性的方法,模型融合的几种策略和区别,以及几点面试可能会问到的问题。包括训练过程融合 (Bagging、Boosting);训练结果融合(加权、Stacking、Blending)。原创 2022-11-21 23:33:23 · 682 阅读 · 0 评论 -
ML XGBoost详细原理及公式推导讲解+面试必考知识点
ML XGBoost详细原理及公式推导讲解+面试必考知识点原创 2022-11-21 15:11:16 · 568 阅读 · 0 评论 -
数据清洗 正则表达式学习 (工具:python re模块)
数据清洗 正则表达式学习 (工具:python re模块)原创 2022-11-14 21:50:28 · 205 阅读 · 0 评论 -
ML 线性回归原理推导以及灵魂拷问 (面试必考知识点)
ML 线性回归原理推导以及灵魂拷问 (面试必考知识点)原创 2022-11-14 15:34:06 · 522 阅读 · 0 评论 -
NLP 三大Subword分词算法 (BPE、WordPiece、ULM) 原理与代码实现(面试必考知识点)
NLP 三大Subword分词算法 (BPE、WordPiece、ULM) 原理与代码实现(面试必考知识点)原创 2022-11-13 22:42:37 · 1376 阅读 · 0 评论 -
NER系列之《HMM中为何引入维特比算法作为预测算法?》
首先因为HMM用到了2个假设:一:齐次马尔可夫性假设。t时刻的隐状态只和t-1时刻的隐状态相关,与其他时刻状态无关。二:观测独立性假设。任意时刻的观测值依赖于该时刻的马尔可夫链的隐状态,与其他观测及隐状态无关。假设通过学习(如极大似然估计)我们已经求得HMM的3大参数:π:初始隐状态概率向量A:状态转移概率矩阵B:发射概率(观测)矩阵在每一t时刻,其实我们要做的就是如下实体标注估计:【注:q为实体标记即隐状态,o为观测】 也就是说在t时刻,根据t-1时刻的隐状态和t时刻的观测,来求出原创 2022-02-17 15:21:48 · 261 阅读 · 0 评论 -
NLP Transformer (面试必考知识点)
transformer必考知识点原创 2022-11-06 19:13:47 · 876 阅读 · 0 评论 -
详细分析L1和L2正则化
正则化:用来控制模型复杂度,减少过拟合,提高泛化能力。一般通过在目标函数中增加惩罚项实现:目标函数 + α倍的权重范数(L1 or L2),其中α控制正则化强弱。L1正则化:1.解空间的解释:加上了菱形约束,容易在尖角处碰撞出解2.贝叶斯估计角度解释:假设w的先验分布服从拉普拉斯分布,在0点的概率要更高L2正则化:1.解空间角度解释:加了球形约束,等高线.原创 2022-02-09 17:08:13 · 746 阅读 · 0 评论 -
word2vec训练优化之Negative Sampling
回顾一下word2vec的训练trick之一:分层softmax。缺点就是:1.对于词袋大小V如果V非常大,即使是构建哈夫曼树,复杂度也会很高,所以提出使用负采样。使用负采样的时候,可以明显感觉到训练速度快于层次softmax,而且不需要构建复杂的哈弗曼树。2.遇到一些生僻词,可能路径会很长,很耗时。因为生僻词在哈夫曼树中离根节点较远。那么下面来分析下word2vec里的训练trick之二:负采样策略。因为我们知道,原始softmax里主要耗时的地方是在softamax的分母里,需要计算词表所有词原创 2021-12-30 22:18:09 · 760 阅读 · 0 评论 -
word2vec训练优化之Hierarchical Softmax
在word2vec中,我们知道,在最后一层的输出softmax中计算量是非常大的,因为如果词表大小为N,就要计算N个词的概率。而H softmax中则是将N分类问题转变成logN次二分类问题。因为H softmax中主要就是利用了哈夫曼树(哈夫曼树树相比其他二叉树,更高效、更节省内存编码),这里来个简单介绍:具体地是结合了哈夫曼树来做,叶子节点代表每个词。非叶子节点对应一个逻辑回归二分类模型。每个词的概率就是从根节点到该叶子节点路径上的所有非叶子节点(逻辑回归的输出概率)之积。这样就不用算N个词的概率原创 2021-12-30 22:17:51 · 1496 阅读 · 0 评论 -
word2vec基本结构之Skip-Gram和CBOW
最近偶然又看到了word2vec的相关讲解,有了不同的认识,在此记录我的看法。 就是word2vec有两种训练模型,一种是Skip-Gram(跳元模型),一种是CBOW(连续词袋模型)。这两个模型的结构都是:输入层+隐藏层+输出层。所以包含两部分权重,这两部分权重也就是我们自监督训练完后所需的词向量。 所以呢,有2个权重矩阵那就说明每个词有对应2个词向量。一个是作为中心词时的词向量,一个是作为上下文词的时候的词向量。 而根据2个不同的模型,我们最后选用的词向量是不一样的。在Skip-Gram中,我们原创 2021-12-30 22:17:09 · 1288 阅读 · 0 评论 -
手撕阻尼牛顿法
牛顿法的迭代公式中,没有步长因子,而是定长迭代,这可能会导致非二次型目标函数的值稳定下降,甚至上升或发散。阻尼牛顿法则是引入步长因子作为改进。原创 2021-12-09 19:54:07 · 226 阅读 · 0 评论 -
手撕牛顿法
牛顿法的基本思想是:在现有极小点估计值附近对f(x)做二阶泰勒展开,进而找到极小点的下一个估计值。优点:是一种迭代法,求解无约束最优化问题的常用方法,收敛速度快,比梯度下降快,(毕竟梯度下降只用了一阶梯度信息,以梯度负方向作为搜索方向,只考虑了目标函数在迭代点的局部性质),而牛顿法则是考虑了二阶梯度信息,这样就考虑了梯度变化的趋势,因而能更全面地确定合适的搜索方向加快收敛。当目标函数为二次函数,从任一初始点出发,只需一次迭代即可达到极小值点。而对于非二次函数,若函数的二次性态较强,若迭代点进入到极小点的领原创 2021-12-09 19:52:56 · 262 阅读 · 0 评论 -
关于结合二阶条件(海森矩阵)来判断非凸函数极值问题?
原创 2021-12-09 19:49:50 · 818 阅读 · 0 评论 -
梯度下降算法可能降低损失函数值的原因?(一维简单解释)
泰勒公式展开到几阶的判断方法:一般展开到,计算时可忽略的高阶无穷小那阶就可以了。比方说分母有个x^2,分子展开到x^2后面是o(x^2)就可以了,这样再计算的时候后面的高阶无穷小趋于零,不影响计算结果,这一阶就可以了。 泰勒公式是一个用函数在某点的信息描述其附近取值的公式。如果函数足够光滑的话,在已知函数在某一点的各阶导数值的情况之下,泰勒公式可以用这些导数值做系数构建一个多项式来近似函数在这一点的邻域中的值。泰勒公式还给出了这个多项式和实际的函数值之间的偏差。...原创 2021-12-05 11:24:02 · 394 阅读 · 0 评论