机器学习
xcnzjxx
这个作者很懒,什么都没留下…
展开
-
零基础入门NLP之新闻分类
基于深度学习的新闻分类本次试验预想使用BERT进行试验,但没成功,代码可能有些问题,同时机器好像也跑不起来首先还是加载数据,并建立词库注意这里需要将text中数据转化为int类型,否则词典建立错误接下来是对原始数据进行编码,同时截取一定长度,多删少补,并选取mask位置接下来对数据进行处理,并将训练数据划分BERT需要在网上下载模型以及参数文件,这里加载完成之后定义优化器接下来就是训练过程,使用gpu时报错显存不足,关了gpu发现代码还是跑不起来,对BERT模型的了原创 2020-08-04 23:15:03 · 174 阅读 · 0 评论 -
零基础入门NLP之新闻分类
基于textcnn+word2vec的分类之前试验了fasttext进行文本分类的方法,最终效果并不是特别理想,比之前传统机器学习的得分稍低,这次试用textcnn+word2vec的方式进行训练word2vec是采用n-gram或CBOW的方式对输入数据进行编码,不同于one-hot编码,word2vec文本向量小(不再是词典大小),也不具有稀疏性,同时还考虑到了每个单词前后文的信息这里使用gensim库进行词向量的训练因为最终词向量是应用至embedding层,因此需要保存模型并建立对应转化表原创 2020-07-31 21:34:46 · 138 阅读 · 0 评论 -
零基础入门NLP之新闻分类
FastText的实现本次试验是基于fasttext的文本分类使用pip install fasttext可安装fasttext库因某些原因本机安装fasttext出错,于是使用pytorch写了简易的fasttext网络这里首先导入了训练数据和测试数据,由于使用fasttext第一层为embedding层,需要将每一条数据的文本个数调整为固定值,因此选取了文本最大值进行截断(未达到的使用未使用编码填充)之前观察了单词的对应情况,由于数据进行脱敏处理得到的全为数字,便不建立词库对应表,直接使用其原创 2020-07-27 22:18:46 · 273 阅读 · 0 评论 -
零基础入门NPL之新闻分类
基于机器学习的文本分类本部分将使用传统机器学习模型对数据集训练并对测试集进行分类首先需要做的是使用tf-idf对训练数据text部分进行编码在nlp中传统表示文本的方法有三种one-hot编码:统计全部单词进行词库的构建,词库大小为V,每一个单词可以表示为长度为V的向量,向量中V-1个值为0,仅向量对应词库索引位置值为1词袋模型:在one-hot编码中,每一行数据表示向量维度为NV(N为文本单词个数,V为词库大小),在词袋模型中,每一行数据表示向量维度为1V,其中向量中每一位置值代表其在句子中原创 2020-07-25 19:06:17 · 411 阅读 · 0 评论 -
零基础入门NLP之新闻分类
数据分析对赛题有一个大致了解之后接下来就是数据分析过程使用pandas读取训练数据和测试数据训练数据一共20W条,由label和text两列构成,label是其所属类别,text由其文本进行脱敏处理后得到的数字构成接下来统计句子的长度可以看出最短句子仅两个单词构成,最长句子由55757个单词构成,大部分句子由1000左右单词组成接下来看一下类别分布情况类别分布不均衡,最少类与最多类之间差距过大统计新闻中单词出现频次可以看出出现最多的为3750,900,648,几乎在每一条新闻中都出原创 2020-07-22 23:07:58 · 188 阅读 · 0 评论 -
零基础入门NLP之新闻分类
本次参加的比赛为天池和Datawhale联合举办的NLP入门比赛,比赛任务是根据所给文本数据分析出该文本所属新闻类别,可以理解为一个多分类问题。从天池官网下载到数据集,进行解压发现有三个表格,一个是训练数据,一个是测试数据,一个是提交样式表。观察训练数据,训练数据由两列组成,一个是label,也就是该条数据属于哪一类,一个是text,表明该条数据的文本组成信息。从赛题说明可以了解到,此次分类任务有14个候选类别,分别是财经、股票、房产、彩票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐.原创 2020-07-21 19:27:13 · 161 阅读 · 0 评论