新闻分类
weixin_45116604
这个作者很懒,什么都没留下…
展开
-
Task6 基于深度学习的文本分类3-BERT
BERT 微调将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。 预训练BERT以及相关代码下载地址:链接: https://pan.baidu.com/s/1zd6wN7elGgp1NyuzYKpvGQ 提取码: tmp5 import logging import random import numpy as np import torch logging.basicConfig(level=logging.INFO, format='%(asct原创 2020-08-04 23:51:12 · 142 阅读 · 0 评论 -
Task4 - Word2Vec
学习目标 学习Word2Vec的使用和基础原理 学习使用TextCNN、TextRNN进行文本表示 学习使用HAN网络结构完成文本分类 文本表示方法 Word2Vec-Skip-Gram实现 1. 读取数据、建立语料字典 from collections import Counter,deque import random import tensorflow as tf import math import pandas as pd import numpy as np import gc t原创 2020-07-31 22:55:30 · 145 阅读 · 0 评论 -
Task4 - fastText入门到实战(一篇就够)
前言 One-hot Bag of Words N-gram TF-IDF 都存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。 与这些表示方法不同,深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。在本章我们将介绍FastText。 FastText入门篇 定义 FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,原创 2020-07-27 16:57:50 · 287 阅读 · 0 评论 -
零基础入门NLP赛事 - Task3 基于机器学习的文本分类
学习目标 学会常用的文本表示方法原理和使用 使用sklearn的机器学习模型完成文本分类 文本表示方法 在机器学习算法的训练过程中,假设给定 N个样本,每个样本有 M 个特征,这样组成了 N×M 的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。 但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding原创 2020-07-23 15:17:06 · 141 阅读 · 0 评论 -
零基础入门NLP赛事 - Task2 数据读取与数据分析
学习目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 数据读取 import pandas as pd #先读取100行 data=pd.read_csv('train_set.csv', sep='\t', nrows=100) #设置value的显示长度为100,默认为50 pd.set_option('max_colwidth',100) train_data.head().append(train_data.tail()) 数据分析 此步骤我们读取了所有的训练集数据,在此我们原创 2020-07-22 09:39:17 · 122 阅读 · 0 评论 -
零基础入门NLP赛事 - Task1 赛题理解
零基础入门NLP赛事 - Task1 赛题理解 前言 第一次参加比赛,请多多指教! 赛题理解 赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。 赛题数据 赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、原创 2020-07-21 13:18:21 · 154 阅读 · 0 评论