N-gram 新词发现总结

最新推荐文章于 2023-04-02 21:55:32 发布

向阳争渡

最新推荐文章于 2023-04-02 21:55:32 发布

阅读量2.4k

点赞数 1

分类专栏： NLP 文章标签： N-gram 新词发现

本文链接：https://blog.csdn.net/yangyang_yangqi/article/details/89400036

版权

NLP 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

jieba与N-gram结合进行新词发现

使用jieba作为基础分词组件
针对新的文本，利用信息熵进行新词发现
使用字典树存储单词和统计词频
取TopN作为新词

此方法主要依托互信息和左右信息熵

互信息表示的是两个词的凝聚力，或者说是两个词在一起表示一个可被接收的常用词的概率

左右熵：表示预选词的自由程度，或者说可与其他词搭配组成新词的概率越高，其也就更可能是一个单独的词

左右熵=min(左熵，右熵)

代码实现可参考：https://github.com/zhanzecheng/Chinese_segment_augment

补充：

jieba并行分词，采用Python自带的multiprocessing模块，在Windows下不适用

# 开启并行分词模式，参数为并发执行的进程数
jieba.enable_parallel(5)

santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2]

# 关闭并行分词模式
jieba.disable_parallel()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

向阳争渡

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python | 高效统计语言模型kenlm：新词发现、分词、智能纠错

素质云笔记

09-27

5972

之前看到苏神【重新写了之前的新词发现算法：更快更好的新词发现】中提到了kenlm，之前也自己玩过，没在意，现在遇到一些大规模的文本问题，模块确实好用，前几天还遇到几个差点“弃疗”的坑，解决了之后，就想，不把kenlm搞明白，对不起我浪费的两天。。 kenlm的优点（关于kenlm工具训练统计语言模型）：训练语言模型用的是传统的“统计+平滑”的方法，使用kenlm这个工具来训练。它快速，节省内存，...

cs224n Lecture 3: GloVe skipgram cbow lsa 等方法对比 / 词向量评估 /超参数调节总结

csdn_inside的博客

01-16

999

生成词向量的方法以前大致有两种方法： ①是Matrix Factorization Method，主要代表是SVD Based的LSA等方法，核心是对共现矩阵（co-occurence）进行SVD（奇异值）分解，得到词向量。 ②是Iteration Based Method（Shallow window-based），主要代表是上节课讲到的Skip-Gram和CBOW。核心是概率，通过设置...

参与评论您还未登录，请先登录后发表或查看评论

文本挖掘（一）—— 新词发现1

07-10

3311

一、规则/概率/信息熵经典算法：采用凝固度和自由度和词频来进行新词筛选。凝固度：字之间相关性，概率计算得到自由度：一个足够独立的词应该会被应用在不同上下文中，采用左右信息熵计算得到参考link，github 代码，github代码2 github代码3 搜资料中，看到比较多的是基于凝固度和自由度，以及在此之上进行改进的方法 TextRank 关键词提取、关键短语提取、摘要提取参考 link， github代码 On the unsupervised analysis of do

新词发现基于ngram方法

weixin_38168559的博客

09-04

553

原文https://spaces.ac.cn/archives/4256/comment-page-1#comments 转载于:https://www.cnblogs.com/cupleo/p/11459528.html

N-GRAM文本挖掘

成功唯有积累，没有奇迹。

06-27

949

N-GRAM介绍： N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关。(隐马尔科夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3,…wn组成，用公式表示N-Gram语言模型如下： P(T)=P(w1)∗P(w2∣w1)∗p(w3∣w1w2)∗p(wn∣w1w2w3...)P(...

新词发现算法

段哥哥的博客

06-30

4041

新词发现基于统计的经典算法（无监督学习）：基于已有的大量语料，枚举可能所有新词（原始字的顺序组合，限制长度为 n-gram），然后计算一些统计指标（主要是凝固度、自由度）进行过滤，尽量准确地筛选出潜在的新词。产出的新词还是需要进行人工审核确认。凝固度这是一个类似互信息 Mutual Information 的概念，衡量两个字之间的相关性，是否经常“凝固”在一块儿出现，足够组成新的词。 2-...

新词发现方法，新词发现算法有哪些，热词的发现方法，互联网热词挖掘方法

创业者

04-02

818

（1）从大数据中抽取：通过抓取互联网上的海量语料，利用统计模型和自然语言处理技术，挖掘新的高频单词或词组，比如Google的Ngram Viewer。（4）热词挖掘：基于特征提取结果，运用机器学习算法和自然语言处理技术，对文本进行分析和挖掘，挖掘出热词和相关热点话题。（2）基于社交媒体的新词发现：通过分析社交媒体平台上的大量用户互动记录，挖掘出新词，比如Twitter的实时搜索。（3）基于词向量的算法：通过对文本数据进行分词，建立文本的向量表示，计算新词与现有词语的相似度，从中挖掘新词。

自然语言处理-词嵌入算法总结.pptx

最新发布

04-23

- **FastText**：基于Word2Vec，但对未登录词（out-of-vocabulary, OOV）处理较好，通过分解词为字符n-gram来学习词向量，对于新词或拼写错误有较好的泛化能力。 - **ELMo**（Embeddings from Language Models）：...

无监督构建词库：更快更好的新词发现算法

Paper weekly

09-11

844

作者丨苏剑林单位丨追一科技研究方向丨NLP，神经网络个人主页丨kexue.fm新词发现是 NLP 的基础任务之一，主要是希望通过无监督发掘一些语言特征（主要是统计特征），...

中文分词方法总结

weixin_44878159的博客

09-14

1410

中文分词方法总结一、基于词典的方法1. 正向最大匹配法(由左到右的方向)：2. 逆向最大匹配法(由右到左的方向)3. 最少切分(使每一句中切出的词数最小)二、基于图论的方法1.n-gram切分方法2. 基于条件随机场的方法（CRF）三、基于隐马尔可夫模型（HMM）的方法四、分词的难点一、基于词典的方法原理：又叫机械分词方法、基于字符串匹配的分词方法。它是按照一定的策略将待分析的字符串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。这是最简单的分词方法，但

基于jieba中文分词进行N-Gram

u011311291的博客

02-06

1万+

jieba提供很好的中文分词，但是并没有提供N-Gram；sklearn的CountVectorizer能提供很好的N-Gram分词，但却没有jieba那么对切词灵活，下面就介绍基于jieba分词进行N-Gram。#coding=utf-8 ''' Created on 2018-2-6''' # 这里的_word_ngrams方法其实就是sklearn中CountVectorizer函数中用于N-

分词学习(3)，基于ngram语言模型的n元分词

wangliang_f的专栏

12-24

1万+

最大概率分词中，认为每个词的概率都是独立的，但是有一部分词，其切分却与前一个词密切相关，特别是中文分词中更为明显，英文中就是如上一篇文章中的“tositdown”的例子。这样就可以使用2元模型，就是如一个分割形式"ab cde f"的概率，如果按照1-gram计算：P(ab cde f) = P(ab)*P(cde)*P(f) 如果按照2-gram计算：P(ab cde

发现新词 | NLP之无监督方式构建词库(四)

liujiesxs的博客

09-15

801

考虑多字的内部凝聚度；基于kenlm与trie树做了性能优化

SmoothNLP新词发现算法的改进实现

NEU_LightBulb的博客

02-21

945

SmoothNLP新词发现算法的改进实现，增加多线程提高效率，调优一些算法过程

基于词表和N-gram算法的新词识别实验

zhoubl668的专栏：远帆，梦之帆！

04-10

1万+

曹艳杜慧平刘竟侯汉清 (南京农业大学信息管理系 210095) 摘要目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料，利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步：先进行N元切分，保存关键词候选集并统计词频；然后进行一系列的过滤，主要有词频阈值限定、前停后停词典

【中文分词系列】 8. 更好的新词发现算法

人工智能

04-03

1万+

如果依次阅读该系列文章的读者，就会发现这个系列共提供了两种从0到1的无监督分词方案，第一种就是《【中文分词系列】 2. 基于切分的新词发现》，利用相邻字凝固度（互信息）来做构建词库（有了词库，就可以用词典法分词）；另外一种是《【中文分词系列】 5. 基于语言模型的无监督分词》，后者基本上可以说是提供了一种完整的独立于其它文献的无监督分词方法。但总的来看，总感觉前面一种很快很爽，却又显得

第五章语言模型：n-gram

weixin_46365033的博客

12-13

2376

文章目录基本概念语句s=w1w2...wms=w_1w_2...w_ms=w1w2...wm的先验概率历史基元*问题解决方法如何划分等价类*题型十二：根据n-gram划分句子*n-gram的应用音字转换问题汉语分词问题*参数估计*题型十三：给定训练语料根据n-gram求取句子的概率*数据平滑基本思想*加1法*题型十四：加1法实操减值法/折扣法*Good-Turing（古德图灵）估计法Back-off方法/后退方法/Katz后退法绝对减值法线性减值法四种减值法的比较删除插值法语言模型的自适应*问题基于缓

NLP系列(5)_从朴素贝叶斯到N-gram语言模型