![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记
文章平均质量分 89
金色麦田~
新人小白,多多关照!
展开
-
相似向量检索库-Faiss-简介及原理
前言由于项目需要,需要对某些种子用户进行look-alike,找到相似用户,所以近期对相似向量检索库Faiss进行一定的了解,接下来,结合相关资料,把我对这个库的了解记录在这里,也希望对你有所帮助!一:Faiss简介Faiss全称(Facebook AI Similarity Search)是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前较成熟的近似近邻搜索库。它包含多种搜索任意大小向量集(备注:向量集大小由RAM内存决定)原创 2022-01-15 18:36:34 · 29737 阅读 · 4 评论 -
NLP相关知识点问答总结(三)
前言这些知识点基本是本人在准备春招和秋招时做的笔记,东西比较杂,有的是自己总结,有的是参考网上博客,可能不是很准确,还望各位批评指正,多多交流。问-1:L1和L2正则化的联系和区别?答:相同点:1:都可以用来防止过拟合2:其主要思想都是结构风险最小化:在经验风险最小化的基础上(也就是训练误差最小化,原有的损失),尽可能采用简单的模型,以此提高泛化预测精度。不同点:1:L1正则化(L1范数,Lasso回归)是各个参数绝对值的和,L2正则化(L2范数,Ridge回归,岭回归)是各个参数的平方和原创 2021-03-01 09:41:26 · 2819 阅读 · 0 评论 -
NLP相关知识点问答总结(二)
前言这些知识点基本是本人在准备春招和秋招时做的笔记,东西比较杂,有的是自己总结,有的是参考网上博客,可能不是很准确,还望各位批评指正,多多交流。问-31:GloVe相对于word2vec有哪些优缺点?答:优点:1:统计全局信息: 考虑了全局的统计信息,在小数据集上也能有不错的效果,word2vec只使用局部的信息2:训练速度更快: 从其实现上来说,更容易实现并行化,所以训练速度更快,相对于Co-Occurence Vector进行矩阵分解,速度要更快3:可拓展性强: 如果加入新的语料,由于之前原创 2021-02-28 10:09:36 · 2213 阅读 · 0 评论 -
NLP相关知识点问答总结(一)
前言这些知识点基本是本人在准备春招和秋招时做的笔记,东西比较杂,有的是自己总结,有的是参考网上博客,可能不是很准确,还望各位批评指正,多多交流。问-1:对于NLP任务来说,特征提取器需要满足什么能力?答:1:保留位置信息 ,对于文本数据来说,不同的位置信息可能会带来较大的影响2:具备长距离特征捕获能力问-2:NLP的主要有哪些任务任务?答:1:序列标注:中文分词,词性标注,命名实体识别,语义角色标注等2:分类任务:文本分类,情感计算3:句子关系判断:问答(QA),语义改写(这个不太明白)原创 2021-02-27 11:42:17 · 1322 阅读 · 3 评论 -
《机器学习基石》 课后作业-Homework0
《机器学习基石》课后作业-Homework0前言Probability and Statistics1combinatorics2 counting3 conditional probability未完待续。。。前言果然自己还是一个十足的拖延症患者,虽然有很多次想写博客,但是都觉得没有时间,或者觉得太麻烦,但是后面自己会多写一点的,现在把学习台湾大学林轩田的《机器学习基石》的习题放在博客上,以...原创 2019-08-27 21:39:25 · 740 阅读 · 0 评论