自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(12)

今天是本系列的最后一期,完整代码呈现Huggingface transformers平台上微调BERT-wwm-ext的过程方法。

2022-09-22 11:29:55 2657

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(11)

前面我们已经学习了针对我们的业务目标——「辨别新闻标题A和B的关系」,如何训练一个LSTM孪生神经网络模型,并获得较好的测试验证结果。 这期我们跟着NLP技术路线的进化,认识一下一个划时代的全新网络「Transformer」。是的,名不虚传,它真的就像「变形金刚」一样厉害。 同样,今天的内容没有代码。

2022-09-22 10:57:46 401

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(10)

本期呈现训练孪生LSTM深度学习网络的完整代码。包括:输入数据预处理的一些变化;通过子类化pytorch的nn.Module 定义我们的神经网络;定义训练函数和验证函数;涉及到的损失、梯度和优化器相关说明;以及模型训练和验证过程。

2022-09-20 15:12:01 372

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(9)

看到这个标题,是不是已经觉得有点高级了?……在系列的下一期将会呈现针对我们的业务目标——「辨别新闻标题A和B的关系」的完整的LSTM模型神经网络训练和测试代码。在那之前,我们将试图把原理部分解释清楚。因此,这期内容没有代码。

2022-09-20 14:59:11 301

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(8)

在看torchtext 参考手册文档的时候,发现之前代码里手工编写的功能(如根据空格的分词、索引序列的截断和补齐等)已有封装函数实现,引用它的成品函数会让代码简洁一些。 另外将读取文件、构造语料库等前续步骤,也合并到myDataset 类的init 方法里。要让深度学习模型能够更好的「理解」标题序列内的词汇,我们要将它们表示成向量的形式,而不是一个单纯数字。 所以现在的问题变成: 「要怎么将一个词汇表示成一个N 维向量?」

2022-09-09 10:01:40 435

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(7)

向量空间模型(例如TF-IDF),又被形象地称为『词袋』模型,就像是把文档里的词汇,放入到以词典作为标签的袋子里。 我们可以看到,基于词袋模型的文档表示方法,虽然考虑了词的重要程度,但它只是根据词的统计特性表示一个文档,而没有考虑到词在文中的次序。这样就有了一个新的思路:将文档表示成词编码的一个序列,这样词在文档上下文关系信息就能够保留下来。在李孟博士的原博客里,后续演示使用的是TensorFlow.Keras相关包,我们改为全部使用Pytorch演示相关功能的实现。

2022-09-09 09:55:29 589

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(6)

上一回我们得到新闻标题文档的压缩到64维的LSI向量表示,我们用它来训练一个机器学习(Machine Learning)模型。集成学习(ensemble learning),并不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器(基学习器,Base learner)来完成学习任务。 对于训练集数据,我们通过训练若干个个体弱学习器(weak learner),通过一定的结合策略,就可以最终形成一个强学习器(strong learner),以达到博采众长的目的。

2022-09-08 11:31:32 489

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(5)

维度归约,也称降维,是指使用数据编码或变换,以便得到原数据的归约或“压缩”表示。潜在语义索引(LSI)是一种常用的文档维度归约算法。LSI基于奇异值分解(Singular Value Decomposition,SVD)的方法实现,SVD是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵对角化的推广。我们将使用LSI对TF-IDF的高维稀疏数据进行降维。

2022-09-08 11:21:46 285

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(4)

用TF-IDF模型建立的文档向量度量新闻标题A和B的距离,‘unrelated’,‘agreed’,'disagreed’三类关系的新闻标题对之间的余弦相似度取值分布分析,以及对于我们的任务目标(辨别新闻标题A和B的关系)的提升作用。

2022-09-07 14:45:23 333

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(3)

要让电脑或是任何NLP 模型理解一篇新闻标题在说什么,我们要转换成它熟悉的形式:数字。在中文的语言特征里,文档的基本单位主要由词构成。中文文档的数字表示时,通常需要先做分词以及词的编码。借助 Jieba 这个中文分词工具,可以轻松实现中文的分词。完成分词之后,就可以进行文档的数字化表示。 可用的方法有很多,我们首先从常用的 TF-IDF文档向量表示方法入手。TF-IDF是一种向量空间模型(VSM:Vector Space Model)。

2022-09-07 14:32:11 620

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(2)

从jieba分词到BERT-wwm,一步步带你进入中文NLP的世界。本期将通过对业务场景数据分析,给出一个简单容易理解的“基线模型”,以便后续各种升级方法的对比参照。

2022-09-06 14:52:24 355

原创 从jieba分词到BERT-wwm——中文自然语言处理(NLP)基础分享系列(1)

从jieba分词到BERT-wwm,一步步带你进入中文NLP的世界。本期主要为书写起源、业务问题背景的介绍。

2022-09-06 14:45:21 427

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除