![](https://img-blog.csdnimg.cn/1bd1d89f758442ba804e6ec8f24ffb1c.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP
文章平均质量分 69
NLP相关理论与实践
YWP_2016
恳请批评指正
展开
-
【NLP】Representation Learning for Natural Language Processing
WordRepresentationTo build an effective machine learning system, we first transform usefulinformation on raw data into internal representations such as feature vectors. Conventional machine learning systems adopt careful feature engineering as pre...原创 2022-04-22 11:09:10 · 2208 阅读 · 0 评论 -
【NLP】统计自然语言处理(第2版)思维导图
以下为宗成庆老师《统计自然语言处理(第2版)》各章节知识点总结而成的思维导图。 该思维导图侧重概念浅层了解,未涉及模型数学原理。如有深入学习需求,请详读相关书籍。 转载请注明出处。......原创 2022-03-21 16:41:58 · 910 阅读 · 2 评论 -
【NLP_事件抽取】基于条件随机场模型
数据预处理#!/usr/bin/env python# coding=utf-8from string import punctuationimport reimport codecs# 英文标点符号+中文标点符号# 未去除空格、换行符等(正则表达式以"/s"表示)punc = punctuation + u'.,;《》?!“”‘’@#¥%…&×()——+【】{};;●,。&~、|::'fr = codecs.open("……\YWP_EventExtracti原创 2022-01-07 15:18:03 · 2038 阅读 · 3 评论 -
【NLP】StanfordCoreNLP
问题没想到,小小一个StanfordCoreNLP,竟然让我们频频踩坑 -_-|| 同广大网友所遇问题一样——StanfordCoreNLP一直运行无结果 StanfordCoreNLP json.decoder.JSONDecodeError: Expecting value: line 1 columnStanfordCoreNLP一直运行无结果解决可能因工具包(CoreNLP与中文语言包)不全 or 其路径不一 or 两个包版本不匹配 更换为3.9版本的stanford-co原创 2022-01-05 10:37:46 · 1154 阅读 · 1 评论 -
【NLP_事件抽取】基于模板匹配
源码来源https://github.com/liuhuanyong/EventTriplesExtractionhttps://github.com/liuhuanyong/EventTriplesExtraction抽取示例示例文本记者从云南北移亚洲象群安全防范工作省级指挥部了解到,象群于6月17日21时48分进入玉溪市峨山彝族自治县辖区,向西偏北方向迁移13.5公里,在峨山县大龙潭乡附近活动。独象离群13天,于6月17日22时7分进入安宁市辖区,位于象群正东方向,与象群直线距离24.7原创 2022-01-04 10:45:09 · 4620 阅读 · 0 评论 -
【NLP】使用朴素贝叶斯进行文本的分类
参考使用朴素贝叶斯进行文本的分类:http://blog.csdn.net/jasonding1354/article/details/45463677朴素贝叶斯分类(Naive Bayesian classification)http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html转载 2017-03-05 20:56:43 · 3077 阅读 · 0 评论 -
【NLP】零碎整理
利用Python进行文章特征提取:http://www.cnblogs.com/Haichao-Zhang/p/5223301.htmlscikit-learn:CountVectorizer提取tf都做了什么:http://blog.csdn.net/mmc2015/article/details/46866537词袋模型最初的Bag of words,也叫做“词袋”原创 2017-03-07 20:48:19 · 561 阅读 · 0 评论 -
【NLP】英文数据预处理__词频统计简例
注:此处使用Gensim包处理后的“data_lemmatized”(再经简单处理)作为词频统计的输入数据“features”import collectionsfeatures=['kansai', 'electric', 'back','electric']#输入数据的格式def train(features): model = collections.defaultdict...原创 2019-10-16 22:04:52 · 1310 阅读 · 0 评论 -
【NLP】自建维基百科语料库
下载维基百科原始语料wikidump 开源语料库(https://dumps.wikimedia.org/zhwiki/) 示例语料:zhwiki-20211220-pages-articles-multistream.xml.bz22.3 GB处理.bz2为文本文件命令行 改预处理文件(1_process.py)路径下:执行python 1_process.py zhwiki-20211220-pages-articles-multistream.xml.bz2 wiki.zh.txt..原创 2021-12-27 13:56:02 · 1605 阅读 · 0 评论 -
【NLP_命名实体识别】CRF++使用流程
重要参考用CRF做命名实体识别(一) - 简书 (jianshu.com)https://www.jianshu.com/p/12f2cdd86679(8条消息) 【windows下CRF++的安装与使用】_feng_zhiyu的博客-CSDN博客_crf++安装https://blog.csdn.net/feng_zhiyu/article/details/80793316实践{B, M, E, S} 格式:B表示实体首字,M表示实体中字,E表示实体尾字,S表示单字 注意:各种编码/解码细.原创 2021-12-22 15:54:35 · 1795 阅读 · 0 评论 -
【NLP_模型超参数浅析】learing_rate
参数与超参数首先,科普一下参数与超参数的区别。参数:模型可以自动学习出的变量,如深度学习模型的权重,偏差等。 超参数:根据经验确定的参数,超参数不同,模型不同。如深度学习模型的学习速率,迭代次数,层数,每层神经元的个数等。问题及解决问题:训练过程中,模型recall为持续0,precision持续为1。 可能的解决方法:调整参数值,其中,包括学习率。在【NLP_命名实体识别】Albert+BiLSTM+CRF模型训练、评估与使用中,超参数设置如下:maxlen = 256epoc原创 2021-04-06 15:07:54 · 1228 阅读 · 0 评论 -
【NLP_模型超参数浅析】batchsize
问题及解决问题:明明已经设置“batch_size = 16”,训练数据量在300-400条,但在运行代码,实际训练时,仍全批量训练,未分批次:Epoch 1/5001/1 ……解决:检查所用数据,是否按照代码中定义的那样(for c in l.split('\n'): #######################查找换行符),以换行符分隔每条数据。def load_data(filename): #加载标注数据:训练集、测试集与验证集 D = [] w...原创 2021-04-04 11:22:05 · 1498 阅读 · 2 评论 -
【实验记录与总结】名称+数量+地理位置实体提取
注:模型:出于对所用数据的考虑,本实体关系提取实验未使用联合抽取模型,而是分别开展实体提取与关系提取部分。实体提取部分,使用Albert+BiLSTM+CRF模型。 数据:信息丰富的多源文本数据(数据来源、类型等信息暂不详述)数据处理数据划分在Excel中,随机抽取数据作为训练集、测试集与验证集。具体操作:每隔3行抽取一条数据,使用以下语句实现=IF(MOD(ROW()-2,3)=0,A3,"")数据随机抽取数据标注将数据化为每字一行(Excel:两端对齐,填充),手.原创 2021-04-01 21:17:55 · 456 阅读 · 0 评论 -
【NLP_模型超参数浅析】global_step
注:本人对global_step尚无深刻理解,以下内容仅是我发现问题、进行相关搜索后的小记录,如有错误之处,还请大神指出。问题的由来【NLP_关系抽取】Bi-GRU模型训练、评估与使用中,所用模型的的迭代次数似乎不可控(详见train.py)。尝试搜索包含epoch, step, num等的关键词,加以修改,迭代次数均无变化,得到的只有一些报错信息。随后,与计算机专业同学交流后,发现可能是因为包含“global_step”。浅析global_step可能正如夕宝爸爸所说(在 Ten.原创 2021-03-29 08:30:59 · 552 阅读 · 0 评论 -
【NLP_向量表示】使用Word2Vec训练字向量
重要参考https://github.com/liuhuanyong/ChineseEmbedding原文作者提供了字向量、拼音向量、词向量、词性向量与依存关系向量,共5种类型的向量训练,在此,只取其字符向量训练部分,加以修改后,做一记录。完整代码train_vector.py在此,设置字向量维度为100。#!/usr/bin/env python3# coding: utf-8# File: train.py.py# Author: lhy<lhy_in_bl原创 2021-03-28 16:05:11 · 1479 阅读 · 0 评论 -
【NLP_向量表示】使用Word2Vec训练词向量
重要参考https://zhuanlan.zhihu.com/p/40016964完整代码import jieba.analyseimport codecs#以写的方式打开原始的简体中文语料库f=codecs.open('D:\Asian elephant\\biye\Spatial relation extraction\Train word vectors yourself\yuliao.txt','r',encoding="utf8")#将分完词的语料写入到wiki_ji.原创 2021-03-28 15:01:16 · 554 阅读 · 0 评论 -
【NLP_关系抽取】BiGRU-Dual Attention模型训练、评估与使用
重要参考用Bi-GRU和字向量做端到端的中文关系抽取(作者:羊肉泡馍与糖蒜)原文链接:http://www.crownpku.com//2017/08/19/%E7%94%A8Bi-GRU%E5%92%8C%E5%AD%97%E5%90%91%E9%87%8F%E5%81%9A%E7%AB%AF%E5%88%B0%E7%AB%AF%E7%9A%84%E4%B8%AD%E6%96%87%E5%85%B3%E7%B3%BB%E6%8A%BD%E5%8F%96.html代码链接:https://git原创 2021-03-27 11:05:39 · 2524 阅读 · 2 评论 -
【NLP_关系抽取】相关模型代码、报错及解决
模型代码https://github.com/NLPxiaoxu/Entity-recognition-and-Relation-extractionhttps://github.com/weizhepei/CasRel报错bug及解决疑惑:为何输出空列表问题描述:使用https://github.com/NLPxiaoxu/Entity-recognition-and-Relation-extraction里Relation_Model——Relationship_V...原创 2021-03-25 22:10:27 · 972 阅读 · 0 评论 -
【NLP_工具】工具包
哈工大语言技术平台LTP官方链接:语言云(语言技术平台云 LTP-Cloud) (ltp-cloud.com)主要功能:涵盖基本的/常用的NLP功能,如分词、词性标注、命名实体识别和依存句法分析等。使用教程:哈工大语言技术平台LTP的用法 - 知乎 (zhihu.com)未完待续...原创 2021-03-16 17:11:20 · 123 阅读 · 0 评论 -
【NLP_命名实体识别】Albert+BiLSTM+CRF模型 数据准备
手动标记数据2021/3/11:调整Albert+BiLSTM+CRF模型代码(见上篇),使其得到更高的精度 +整理多源数据。训练样本数量的确定“10倍规则法”,即所需训练样本数量应是模型参数数量的10倍。参考:https://blog.csdn.net/wtq1993/article/details/50740464。...原创 2021-03-11 21:56:20 · 828 阅读 · 1 评论 -
【NLP_命名实体识别】Albert+BiLSTM+CRF模型训练、评估与使用
模型代码修改2021/3/10:使用训练好的Bert/Albert-CRF模型,同时,在此基础上,加一层BiLSTM网络,得修改后的Albert-BiLSTM-CRF模型(见下一篇文章),开始训练。修改思路:以已有的Albert+CRF模型代码为基础,参考网上的Albert+BiLSTM+CRF模型,稍加修改即可。值得注意的,无非是“三种模型”之间的数据传递类型,比如,将Albert模型训练得到的embedding,传入BiLSTM(参考:https://www.cnblogs.com/gczr/p原创 2021-03-10 22:32:54 · 4284 阅读 · 7 评论 -
【NLP_命名实体识别】Bert/Albert+CRF模型实现
模块调用2021/3/8周一:基于模块调用部分(如下)bug,重装Anaconda与Tensorflow,解决bug。import numpy as npfrom bert4keras.backend import keras, Kfrom bert4keras.models import build_transformer_modelfrom bert4keras.tokenizers import Tokenizerfrom bert4keras.optimizers import .原创 2021-03-08 18:56:31 · 2187 阅读 · 1 评论 -
【NLP】LDA笔记之模型评估
ReferenceNumber of topicsPlexity OR maximum likelihood estimation使用R语言进行主题发现:https://www.cnblogs.com/deeplearningfans/p/4114892.html要在数据集中确定主题的个数,需要事先设定主题个数的搜索范围;然后分别使用LDA计算主题模型在不同主题数目下的...原创 2019-11-20 16:04:49 · 4122 阅读 · 5 评论 -
【NLP】LDA笔记
参考【NLP】LDA主题模型详解【NLP】LDA主题模型的简单应用主题模型简介 主题模型(Topic Model)是用来在一系列文档中发现 抽象主题 的一种统计模型(自动分析每个文档,统计文档中的词语,根据统计的信息判断当前文档包含哪些主题以及各个主题所占比)。直观来讲,如果一篇文章有一个中心思想,那么一定存在一些特定词语会出现的比较频繁。比方说,如果现...转载 2019-11-15 14:09:04 · 807 阅读 · 1 评论 -
【NLP】LDA2Vec笔记(基于Lda2vec-Tensorflow-master 可实现)(实践)
数据源代码所用数据:20_newsgroups.txt,大小几十MB。 文件开头:以texts换行,作为Key源代码所用的20个新闻组数据(据观察,数据无特殊格式)个人尝试之Japan.txt,成功。所用Japan.txt数据个人尝试之China.txt,失败。(load_20newsgroups.py生成的skipgrams.txt为空→run_20newsgro...原创 2019-11-14 09:34:50 · 2350 阅读 · 1 评论 -
【NLP】Word2Vec笔记(代码)
参考word2vec源码详解(非Python)Word2Vec的参数解释word2vector从参数解释到实战参数解释from gensim.models import Word2Vec#下面的参数均是默认值Word2Vec(sentences=None, #sentences可以是分词列表,也可以是大语料 size=100,#特征向量的维...原创 2019-11-10 15:19:38 · 646 阅读 · 0 评论 -
【NLP】LDA2Vec笔记(中)
代码结构分析代码来源:githubexamples-hacker_news执行顺序一级目录examples-hacker_news以examples-hacker_news(新闻)为例。据我观察,首先,应当运行data-preprocess.py(此代码同时包括用于下载数据的代码),进行数据预处理工作,处理完成后保存产物(如下图):examples-hacker...原创 2019-11-03 12:35:21 · 595 阅读 · 2 评论 -
【NLP】spaCy笔记
目录参考spaCy实践语法方面准备工作展示全部词例(token)只对前10个词例(token),输出token的索引值、词元、词性等不再考虑全部词性,只关注文本中出现的实体(entity)词汇把一段文字拆解为语句(按.分隔)搞清其中每一个词例(token)之间的依赖关系语义方面使用spaCy的词嵌入模型查看单词对应的向量查看spacy的语义近似度判...原创 2019-11-01 11:18:07 · 3382 阅读 · 0 评论 -
【NLP】预训练词向量
玩转词向量:用fastText预训练向量做个智能小程序我没有训练任何机器学习模型,而是下载了使用 fastText 库创造的预训练英语词向量:https://fasttext.cc/docs/en/english-vectors.html。这些向量是在英语文本上训练的,但和人类不一样,这个学习算法没有任何预先的英语知识。在阅读维基百科几个小时之后,它很好地学习到了英语语法以及很多真实世界概念...原创 2019-10-30 13:44:40 · 1301 阅读 · 0 评论 -
【NLP】LDA2Vec笔记(基于cemoody/lda2vec 未实现)
学习链接:https://blog.csdn.net/u010161379/article/details/51250109目录说明理论__init__.py简介修改+注释后代码corpus.py简介preprocess.py准备工作定义tokenize函数preprocess.py完整代码(注释版)examples: hacker_news...原创 2019-10-30 08:46:04 · 4627 阅读 · 1 评论 -
【NLP】Word2Vec笔记(理论)
视频课/大神笔记的“学后感”笔记类线上GPU:https://www.floydhub.com/ Google's trained Word2Vec model in Python tensorflow如何正确加载预训练词向量 各种预训练的词向量(Pretrained Word Embeddings) word2vec是如何得到词向量的(多个有用回答:高赞前两名 + word...原创 2019-10-29 11:14:05 · 360 阅读 · 0 评论 -
【NLP】英文数据预处理___Gensim(tf-idf LDA)
文本特征提取方法+基于Gensim的词袋处理/TFIDF处理原创 2019-10-15 19:35:13 · 2385 阅读 · 0 评论 -
【NLP】英文数据预处理___Gensim(doc2bow LDA)
目录理论主流NLP包的区别代码准备工作之引入包、数据预处理之大小写转换预处理之去特殊符号预处理之去停用词预处理之词性标注+词形还原建模之文本向量化(doc2bow)建模之LDA结果all_code思考参考(有删改)理论主流NLP包的区别以NLTK、Sklearn以及Gensim为例NLTK一般用于文本预处理(词干/词元化,P...原创 2019-10-15 10:38:42 · 2673 阅读 · 0 评论 -
【NLP】英文数据预处理___词干/词元处理
词形还原(Lemmatization)与词干提取(Stemming)的简介+异同点+Python实现代码原创 2019-10-12 19:01:27 · 1369 阅读 · 0 评论 -
【Python_NLP】gensim与DTM
注:本文=多篇文章精华提炼+个人总结参考博客出处:链接:https://blog.csdn.net/l7H9JA4/article/details/80220939作者:李雪冬 编辑:李雪冬 https://blog.csdn.net/qq_42988748/article/details/82657562http://blog.chinaunix.net/u...原创 2019-08-21 10:05:13 · 6212 阅读 · 2 评论 -
【ML/NLP】baseline
知乎@金柔Baseline就是参照物,可以是最基础的模型,业界的普遍做法或者你要去pk的对手玩法。选取什么作Baseline那就看你的目的咯知乎@walle在CVPR2016的best paper, 也就是何凯明的Deep Residual Learning for Image Recognition一文中,对于34层残差卷积神经网络和34层普通卷积神经网络,做了对比,在对比中普通CN...原创 2019-08-05 18:41:32 · 1974 阅读 · 0 评论