NLP
文章平均质量分 93
tt丫
最近比较忙,评论可能比较晚回复,真的很不好意思呜呜呜,因为有一些太久没用我已经忘了,要回复的话我要重新过一遍呜呜呜,不好意思,等这阵子忙完我统一回复,sorry
展开
-
小型中文版聊天机器人
自己用pytorch搭建模型,训练一个小型的中文闲聊机器人。原创 2023-06-10 20:30:20 · 3703 阅读 · 3 评论 -
SVM模型详解
入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。一、SVM定义与解决目标SVM是一个二类分类器。其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化成一个凸二次规划问题的求解。即找到一个超平面,使两类数据离超平面越远越好,这样就可以让模型对新的数据分类更准确,即分类器更加稳定。🎈支持向量:离分隔超平面最近的一些点🎈间隔最大化:寻找最大化支持向量到分隔超平面的距离,以此为目标来求出分隔超平面🎈数据分类原创 2022-04-01 14:03:58 · 26720 阅读 · 2 评论 -
RF模型(随机森林模型)详解
入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。一、RF简介RF模型属于集成学习中的bagging流派1、集成学习简介集成学习分为2派:(1)boosting:它组合多个弱学习器形成一个强学习器,且各个弱学习器之间有依赖关系。(2)bagging:同样的,它也是组合多个弱学习器形成一个强学习器,但它各个弱学习器之间没有依赖关系,而且可以并行拟合。2、bagging流派算法简介...原创 2022-03-24 20:10:08 · 22139 阅读 · 0 评论 -
基于高频词抽样+负采样的CBOW模型
深度学习入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。原创 2022-03-19 09:41:44 · 3105 阅读 · 0 评论 -
基于分层softmax的CBoW模型详解
入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。一、朴素CBoW模型介绍及代码实现word2vector之CBoW模型详解_tt丫的博客-CSDN博客二、使用分层softmax改进CBoW模型的原因CBoW模型是用上下文X来预测中间词Y,那么其输出层(输出是1 ∗ V的向量)有V个神经元,我们对这V个神经元一开始是等同对待的,但是如果V的数值非常大,等同对待,会导致效率过低,计算量过大。三、背景知识——哈夫曼树和逻辑回归Sigmoi原创 2022-03-16 09:37:37 · 3641 阅读 · 0 评论 -
word2vector之Skip_Gram模型详解
深度学习入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。目录一、前景知识二、Skip-gram模型思想三、Skip-gram模型结构分析1、网络图2、网络层次级分析3、注意点四、代码实现朴素skip-gram一、前景知识CBoW模型word2vector之CBoW模型详解_tt丫的博客-CSDN博客二、Skip-gram模型思想Skip-gram模型跟CBoW模型是反过来的。CBoW模型通过上下文来预原创 2022-03-13 21:07:26 · 5610 阅读 · 3 评论 -
word2vector之CBoW模型详解
深度学习入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。目录一、前景知识二、CBoW模型思想三、CBoW模型结构分析1、网络结构图2、CBoW模型 Vs NNLM3、网络层次级分析四、代码实现一、前景知识二、CBoW模型思想通过上下文来预测当前值,即像我们的填词游戏。CBoW模型等价于一个词袋模型的向量乘一个矩阵,得到一个连续的embedding向量。三、CBoW模型结构分析1、网络结构图原创 2022-03-13 20:59:50 · 5778 阅读 · 2 评论 -
基于神经网络语言模型的词向量生成(NNLM)详解
深度学习入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。目录一、NNLM的网络结构分析二、NNLM的代码实现一、NNLM的网络结构分析神经网络语言模型NNLM是概率语言模型,它通过神经网络来计算概率语言模型中每个参数。模型如图所示模型输入:,即输入的是的前n-1个词模型输出:根据这已知的 n- 1 个词预测下一个词其中上图:语料库的词向量表示:矩阵C ——大小为 |V| * m ,V表示语料中的总词..原创 2022-03-05 19:19:13 · 3617 阅读 · 3 评论 -
NLP之文本特征提取详解
深度学习入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。一、词袋模型(Bag of Words, BoW)1、目的将不定长的文本型数据转化为定长的数值型数据,方便用作机器学习模型的输入2、主要思想建立一个词典库,其中包含训练语料库的所有词语,每个词语都对应一个唯一识别的编号,利用one-hot文本来表示;文档的词向量维度与单词向量的维度相同,每个位置的值是对应位置词语在文档中出现的次数。3、具体算法步骤(1)对所有文本进行单原创 2022-03-03 20:15:02 · 12427 阅读 · 0 评论 -
NLP之文本预处理详解
入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。Ps预防针:与英文分类文本预处理相比,中文分类文本预处理更加复杂关键一、进行文本预处理的原因解决特征空间高维性、特征分布稀疏和语义相关性毕竟计算机不是人嘛,我们的语言需要经过一定的预处理让他们可以读入以及方便后续训练分类,接下来我们来说说文本预处理有哪些常用的方法二、去除停用词1、停用词定义:在信息检索中,为节省存储空间和提高搜索效率,在处理文本之前自动过滤掉某些字或词,这原创 2022-02-28 22:20:57 · 8090 阅读 · 2 评论