自然语言处理
文章平均质量分 93
dream or nightmare
分享资源,总结知识,一起进步。
展开
-
详解word2vector的原理,结构,训练过程
原始论文:Efficient Estimation of Word Representations in Vector Space原文链接:https://arxiv.org/abs/1301.3781v31.介绍2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。原创 2021-09-29 12:18:10 · 2203 阅读 · 0 评论 -
哈工大自然语言处理实验1——汉语分词系统
离谱就离谱写完报告人都没了根本就没有时间也没有心思去刷榜写不写的完都费事哪有时间去冲榜老师这不是故意让我们卷起来吗服了原创 2020-11-27 20:46:10 · 1744 阅读 · 5 评论 -
CRF++工具包的安装和使用介绍
CRF使用简介CRF使用教程原创 2020-11-14 16:20:42 · 3745 阅读 · 2 评论 -
用HMM进行词性标注解决状态转移概率0、发射概率为0的方法
利用HMM进行词性标注碰到的壁1.大意失荆州2.后悔可及3.三省吾身1.大意失荆州笔者上个星期上了一门创新研修课需要利用HMM来进行词性标注,我一开始的思路大致如下:首先利用语料库训练出每个隐状态的初始概率、状态之间的转移概率和隐状态生成观测值的发射概率,然后对于给定的观测序列利用viterbi算法求出最大概率的隐状态序列,我的算法在原来的训练集上面进行词性标注效果很好。于是我乐呵呵的拿到讲台上去讲,但是老师二话不说,让我找个句子随便来测试一下,我自信满满,上百度随便找了一段话,用我之前写的分原创 2020-11-11 21:21:50 · 1055 阅读 · 2 评论 -
汉字编码方案
由于计算机只能处理数字,因此,当需要用计算机来处理字符(以及字符串)的时候,就要有一种机制来实现字符到数字的转换,这便是字符串的编码。最开始的时候,计算机只有英文字符,故需要编码的符号比较少。此时用的编码为ASCII编码,其中包括大小写英文字母、数字以及一些符号此时实现这些字符的编码,只需要一个字节就够了(即8位)。但是对于中文来说,需要对汉字进行编码时,一个字节是远远不够的。考虑到不能和当时已有的ASCII编码冲突,中文最初制定了GB2312编码。其中包括6763个汉字和682个其它符号。95年重新修原创 2020-09-19 19:57:50 · 4584 阅读 · 0 评论