NLP学习心得
宿者朽命
这个人很懒,只会ctrl + abcdefghijklmnopqrstuvwxyz
展开
-
天池NLP新闻文本分类学习赛心得-Task6
天池NLP新闻文本分类学习赛心得-Task6 赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction 这一次task使用的深度模型为 BERT,模型强悍到不用太深层的了解NLP原理就能够有着良好的训练结果,对于这一次新闻文本分类学习赛亦是如此。 BERT原理: 特征提取器 Transformer Encoder,特征提取器,由Nx个完全一样的layer组成,每个layer有2个sub-layer,分别是:Mult原创 2020-08-04 22:53:11 · 356 阅读 · 1 评论 -
天池NLP新闻文本分类学习赛心得-Task5
天池NLP新闻文本分类学习赛心得-Task5 赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction 学习目标: 了解word2vex 利用textcnn和textrnn将word2vec分类结果进一步进行分类 word2vec中主要思维是对出现在上下文环境里的词进行预测,在选取的文本中选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。 主要有两种算法:skip-grams和conti原创 2020-08-03 13:52:45 · 416 阅读 · 0 评论 -
天池NLP新闻文本分类学习赛心得-Task4
天池NLP新闻文本分类学习赛心得-Task4 赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction 对文本类数据分类不仅可以用传统机器学习,也可以用深度学习。通过sklearn实践通过机器学习对文本数据进行分类,或多或少有点点缺陷,而深度学习既能够提供特征提取功能,也可以完成分类功能。 Fasttext 模型犹如名字一样,非常简单通过Embedding层将单词映射到稠密空间,学习到的Embedding空间维度比较原创 2020-07-27 23:54:08 · 180 阅读 · 0 评论 -
天池NLP新闻文本分类学习赛心得-Task3
天池NLP新闻文本分类学习赛心得-Task3 赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction 对新闻文本分类方式有很多种,深度学习也大多是基于机器学习思想展开的,所以在这次文本分类中可以首先对其使用机器学习模型来解决文本分类问题,之后再用深度学习模型对其进行分类预测。 机器学习在分类过程中肯定有较多的局限性,一是在空间上的,内存使用量可能较多,在大文本传入的情况下可能会造成内存溢出;二是时间上的,机器学习模型原创 2020-07-25 23:57:08 · 142 阅读 · 0 评论 -
天池NLP新闻文本分类学习赛心得-Task2
天池NLP新闻文本分类学习赛心得-Task2 赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction 今天按照昨天的存储方法后,再次读取数据相比昨天耗时就小的多了,并对文本数据进行初步处理及分析。 先来探究每条文本长度分布如何: 可以看到总共统计了20w条文本数据记录,其中最长的有57921个字符,最短的只有两个字符,字符长度基本上都在1500个左右。 下面在来看看哪种类型的新闻文本最多: 由下面的label对应原创 2020-07-22 23:55:44 · 244 阅读 · 0 评论 -
天池NLP新闻文本分类学习赛心得-Task1
天池NLP新闻文本分类学习赛心得-Task1 赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction 赛题数据类似于这样: 官方将文本数据进行匿名化,防止人为标注数据,我认为这是个蛮好的决策,感觉我大概率需要以一种模糊的状态去对待它,由于样本量大,所占内存也大,用正常的pd.read_csv()方法读取稍微费时,假象以下,每次需要花半分钟读取数据,难受嘛?我是挺难受的。 所以我在第一次读取的时候就把他转存为.pk原创 2020-07-21 21:16:33 · 241 阅读 · 0 评论