![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
谦芊珺
这个作者很懒,什么都没留下…
展开
-
自然语言处理(一)基础
1、字符串常用命令2、正则表达式3、Python的re模块4、jieba分词工具原创 2017-07-26 02:47:53 · 353 阅读 · 0 评论 -
自然语言处理(二)语言模型
1、词袋模型认为词语间相互独立,失去词语间的顺序信息,相当于把词放在一个袋子里。2、N-gram模型引入了词与词之间的顺序。这个N是一个超参数。 1、一般能用2-gram尽量用2-gram。 2、平时3-gram用的多。 3、n>=4的情况很少,在有特别多语料时可以尝试到5-gram原创 2017-07-26 02:58:50 · 416 阅读 · 0 评论 -
自然语言处理(三)主题模型
为了解决“一词多义”和“多词一意”的问题,引入“主题”LDA本质是一个三层贝叶斯网络1、共轭分布1、Beta分布是二项分布的共轭先验分布 2、Dirichlet分布是多项分布的共轭先验分布Dirichlet分布的参数[α1,α2,....,αn][\alpha_{1},\alpha_{2},....,\alpha_{n}],一般α\alpha都取一样的值。α=1\alpha=1\quad原创 2017-07-26 03:06:24 · 641 阅读 · 0 评论 -
自然语言处理(四)统计机器翻译SMT
1、统计机器翻译三要素1、翻译模型 2、语言模型 3、排序模型2、翻译流程1、双语数据预处理 2、词对齐 3、构造短语翻译表 4、对短语翻译表进行概率估计 5、解码,beam search 6、评估原创 2017-07-26 19:45:15 · 2333 阅读 · 0 评论 -
自然语言处理(五)深度学习
1、tips1、行业基准:用词袋模型表示句子,用SVM或LR做回归,用自己的模型和它做对比 2、分词:启发式或机器学习(HMM,CRF) 3、深度学习是端到端的2、Auto-Encoder可将语料编码化,降维降噪3、CNN机器自动学习卷积滤镜用word2vec将一句话处理成一个矩阵,用CNN案例:文本—>(预处理、TF-IDF、word2vec) —>词向量—>(LR、SVM、LSTM)—>标签原创 2017-07-26 20:06:06 · 434 阅读 · 0 评论 -
自然语言处理(六)词向量
目的:把文本用数据的形式表达出来 方法:传统基于规则,现代基于统计一、词编码方式1——离散表示1、One-hot编码 和句子中顺序无关,耗空间耗时2、词袋模型 每个数表示该词出现的次数(One-hot的加和)3、TF_IDF 每个数代表该词在整个文档中的占比4、N-gram 相邻N个词作为一组进行编码,缺点是浪费空间、无法衡量词之间的关系二、词编码方式2——分布式表示所谓分布式原创 2017-07-26 20:44:33 · 3785 阅读 · 1 评论