![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
伽音
数据挖掘、机器学习、深度学习、自然语言处理
展开
-
NLP实践-Task2
任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.基本文本处理技能1.1分词的概念(分词的正向最大、逆向最大、双向最大匹配法)正向最大匹配法:对句子从左到右进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。逆向最大匹配法:对句子从右到左进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行...原创 2019-03-05 10:59:21 · 337 阅读 · 0 评论 -
数据竞赛 Task1
数据:train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。注:每一个数字对应一个“字”,或“词”,或“标点符号”。...原创 2019-04-05 21:24:52 · 166 阅读 · 0 评论 -
NLP实践-Task9
1.Encoder-Decoder框架要了解深度学习中的注意力模型,就不得不先谈Encoder-Decoder框架,因为目前大多数注意力模型附着在Encoder-Decoder框架下,当然,其实注意力模型可以看作一种通用的思想,本身并不依赖于特定框架,这点需要注意。图1 抽象的文本处理领域的Encoder-Decoder框架文本处理领域的Encoder-Decoder框架可以这么直观...原创 2019-03-19 19:00:16 · 192 阅读 · 0 评论 -
NLP实践-Task10
1.transformer 图一、The Transformer Architecture 如图一所示是谷歌提出的transformer 的架构。这其中左半部分是 encoder 右半部分是 decoder。Encod...原创 2019-03-23 19:01:07 · 370 阅读 · 0 评论 -
NLP实践-Task6
任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.one-hotone-hot编码(独热编码)用来解决类别型数据的离散值问题import pandas as pdfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import On...原创 2019-03-13 20:58:16 · 199 阅读 · 0 评论 -
NLP实践-Task5
任务链接:https://wx.zsxq.com/dweb/#/index/222248424811深度学习视频推荐1:https://www.icourse163.org/learn/PKU-1002536002?tid=1003797005#/learn/content深度学习视频推荐2:https://mooc.study.163.com/course/2001281002#/info...原创 2019-03-11 10:54:47 · 315 阅读 · 0 评论 -
NLP实践-Task7
任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.卷积参考链接:https://zhuanlan.zhihu.com/p/575758101.1卷积卷积:图像中不同数据窗口的数据和卷积核(一个滤波矩阵)作内积的操作叫做卷积。其计算过程又称为滤波,本质是提取图像不同频段的特征。卷积核:也称为滤波器filter,带着一组固定权重的...原创 2019-03-14 19:35:34 · 484 阅读 · 2 评论 -
NLP实践-Task3
任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.TF-IDFTF-IDF参考链接:https://www.cnblogs.com/pinard/p/6693230.htmlfrom sklearn.feature_extraction.text import TfidfVectorizercorpus = ["I come ...原创 2019-03-07 09:48:43 · 211 阅读 · 0 评论 -
NLP实践-Task4
任务链接:https://wx.zsxq.com/dweb/#/index/2222484248111.朴素贝叶斯朴素贝叶斯参考链接:https://blog.csdn.net/qq_27009517/article/details/80044431import numpy as npfrom sklearn import datasetsfrom sklearn.naive_b...原创 2019-03-09 19:11:47 · 176 阅读 · 0 评论 -
NLP实践-Task1
对cnews数据做一些数据处理import jiebaimport pandas as pdimport tensorflow as tffrom collections import Counterfrom gensim.models import Word2Vecfrom sklearn.feature_extraction.text import CountVectorize...原创 2019-03-03 19:43:16 · 368 阅读 · 0 评论 -
数据竞赛 Task2
TF-IDF,即“词频-逆文本频率”。它由两部分组成,TF和IDF。TF就是词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征。IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。而反过来如果一个词在比较少的文本中出现,那么它的IDF值应该高,比如一些专业的名词如“Machine Learning”,这样的词IDF值应该...原创 2019-04-07 12:42:52 · 170 阅读 · 0 评论