moronism189-CSDN博客

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（12）

今天是本系列的最后一期，完整代码呈现Huggingface transformers平台上微调BERT-wwm-ext的过程方法。

2022-09-22 11:29:55 2708

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（11）

前面我们已经学习了针对我们的业务目标——「辨别新闻标题A和B的关系」，如何训练一个LSTM孪生神经网络模型，并获得较好的测试验证结果。这期我们跟着NLP技术路线的进化，认识一下一个划时代的全新网络「Transformer」。是的，名不虚传，它真的就像「变形金刚」一样厉害。同样，今天的内容没有代码。

2022-09-22 10:57:46 403

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（10）

本期呈现训练孪生LSTM深度学习网络的完整代码。包括：输入数据预处理的一些变化；通过子类化pytorch的nn.Module 定义我们的神经网络；定义训练函数和验证函数；涉及到的损失、梯度和优化器相关说明；以及模型训练和验证过程。

2022-09-20 15:12:01 374

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（9）

看到这个标题，是不是已经觉得有点高级了？……在系列的下一期将会呈现针对我们的业务目标——「辨别新闻标题A和B的关系」的完整的LSTM模型神经网络训练和测试代码。在那之前，我们将试图把原理部分解释清楚。因此，这期内容没有代码。

2022-09-20 14:59:11 303

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（8）

在看torchtext 参考手册文档的时候，发现之前代码里手工编写的功能（如根据空格的分词、索引序列的截断和补齐等）已有封装函数实现，引用它的成品函数会让代码简洁一些。另外将读取文件、构造语料库等前续步骤，也合并到myDataset 类的init 方法里。要让深度学习模型能够更好的「理解」标题序列内的词汇，我们要将它们表示成向量的形式，而不是一个单纯数字。所以现在的问题变成：「要怎么将一个词汇表示成一个N 维向量？」

2022-09-09 10:01:40 439

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（7）

向量空间模型（例如TF-IDF），又被形象地称为『词袋』模型，就像是把文档里的词汇，放入到以词典作为标签的袋子里。我们可以看到，基于词袋模型的文档表示方法，虽然考虑了词的重要程度，但它只是根据词的统计特性表示一个文档，而没有考虑到词在文中的次序。这样就有了一个新的思路：将文档表示成词编码的一个序列，这样词在文档上下文关系信息就能够保留下来。在李孟博士的原博客里，后续演示使用的是TensorFlow.Keras相关包，我们改为全部使用Pytorch演示相关功能的实现。

2022-09-09 09:55:29 600

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（6）

上一回我们得到新闻标题文档的压缩到64维的LSI向量表示，我们用它来训练一个机器学习（Machine Learning）模型。集成学习（ensemble learning），并不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器（基学习器，Base learner）来完成学习任务。对于训练集数据，我们通过训练若干个个体弱学习器（weak learner），通过一定的结合策略，就可以最终形成一个强学习器（strong learner），以达到博采众长的目的。

2022-09-08 11:31:32 490

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（5）

维度归约，也称降维，是指使用数据编码或变换，以便得到原数据的归约或“压缩”表示。潜在语义索引（LSI）是一种常用的文档维度归约算法。LSI基于奇异值分解（Singular Value Decomposition，SVD）的方法实现，SVD是线性代数中一种重要的矩阵分解，是矩阵分析中正规矩阵对角化的推广。我们将使用LSI对TF-IDF的高维稀疏数据进行降维。

2022-09-08 11:21:46 296

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（4）

用TF-IDF模型建立的文档向量度量新闻标题A和B的距离，‘unrelated’,‘agreed’,'disagreed’三类关系的新闻标题对之间的余弦相似度取值分布分析，以及对于我们的任务目标（辨别新闻标题A和B的关系）的提升作用。

2022-09-07 14:45:23 337

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（3）

要让电脑或是任何NLP 模型理解一篇新闻标题在说什么，我们要转换成它熟悉的形式：数字。在中文的语言特征里，文档的基本单位主要由词构成。中文文档的数字表示时，通常需要先做分词以及词的编码。借助 Jieba 这个中文分词工具，可以轻松实现中文的分词。完成分词之后，就可以进行文档的数字化表示。可用的方法有很多，我们首先从常用的 TF-IDF文档向量表示方法入手。TF-IDF是一种向量空间模型（VSM：Vector Space Model）。

2022-09-07 14:32:11 629

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（2）

从jieba分词到BERT-wwm，一步步带你进入中文NLP的世界。本期将通过对业务场景数据分析，给出一个简单容易理解的“基线模型”，以便后续各种升级方法的对比参照。

2022-09-06 14:52:24 359

原创从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（1）

从jieba分词到BERT-wwm，一步步带你进入中文NLP的世界。本期主要为书写起源、业务问题背景的介绍。

2022-09-06 14:45:21 429

weixin_49518391的博客