![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 92
目光所及
千帆驶尽回眸望,仍是初少年!
展开
-
新闻文本分类之旅 BERT
代码全部放在GitHub预训练BERT以及相关代码下载地址:链接: https://pan.baidu.com/s/1zd6wN7elGgp1NyuzYKpvGQ 提取码: tmp5我们知道BERT模型的输入有三部分:token embedding,segment embedding以及position embedding。词向量的后续处理先生成Segment Embeddings 和 Position Embeddings,再相加,即Input = Token Embeddings +..原创 2020-08-22 11:01:25 · 1980 阅读 · 0 评论 -
新闻文本分类之旅 Word2Vec_CNN_GRU
天池-零基础入门NLP新闻文本分类导入相关库读取数据数据预处理自定义模型输出上传文件新闻文本分类导入相关库import numpy as npimport pandas as pdfrom gensim.models import word2vecfrom sklearn.model_selection import StratifiedKFoldfrom sklearn.metrics import f1_scoreimport tensorflow.keras.backend as K原创 2020-08-10 22:44:57 · 921 阅读 · 0 评论 -
新闻文本分类之旅 Word2Vec_Corpus
天池-零基础入门NLP新闻文本分类预训练Word2vec语料导入相关库读取数据加载语料训练语料保存模型新闻文本分类预训练Word2vec语料导入相关库import numpy as npimport pandas as pdfrom gensim.models import word2vec读取数据train_df = pd.read_csv('../data/train_set.csv', sep='\t')test_df = pd.read_csv('../data/test_a.c原创 2020-08-10 22:17:19 · 561 阅读 · 2 评论 -
新闻文本分类之旅 FastText
天池-零基础入门NLP新闻文本分类导入相关库读入数据文本预处理训练模型输出上传文件新闻文本分类FastText在文本分类任务上是优于TF-IDF的:FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类;FastText学习到的Embedding空间维度比较低,可以快速进行训练。导入相关库import numpy as npimport pandas as pdimport fasttextfrom sklearn.model_selection impor原创 2020-08-06 17:46:49 · 715 阅读 · 0 评论 -
新闻文本分类之旅 机器学习
天池-零基础入门NLP新闻文本分类导入相关库读入数据文本表示训练模型输出上传文件存在问题新闻文本分类比赛地址文本分类的任务是将给定的文本划分到事先规定的文本类别。导入相关库import pandas as pdfrom sklearn.model_selection import train_test_split, KFoldfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.svm import L原创 2020-08-04 15:32:12 · 1068 阅读 · 0 评论