自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 LeetCode

2020-08-24 15:30:36 104

原创 LeetCode

计算x的n次幂思路:采用递归的思想,对于一个数来说,其n次幂等价于本身*其n-1次幂,将此作为递归关系,同时基线条件为n=时,返回1注意:n可以为负数,当n为负数时,需提前将n转为正数,底变为倒数def pow(x, n):if n < 0:n = -nx = 1/xif n == 0:return 1return x*pow(x, n-1)最大子序和思路:采用分治的思想,将其看作三部分的最大值,即左边部分最大子序和,右边部分最大子序和,从中间开始向两边扩展的最大子序和

2020-08-19 23:03:16 266

原创 零基础入门NLP之新闻分类

基于深度学习的新闻分类本次试验预想使用BERT进行试验,但没成功,代码可能有些问题,同时机器好像也跑不起来首先还是加载数据,并建立词库注意这里需要将text中数据转化为int类型,否则词典建立错误接下来是对原始数据进行编码,同时截取一定长度,多删少补,并选取mask位置接下来对数据进行处理,并将训练数据划分BERT需要在网上下载模型以及参数文件,这里加载完成之后定义优化器接下来就是训练过程,使用gpu时报错显存不足,关了gpu发现代码还是跑不起来,对BERT模型的了

2020-08-04 23:15:03 202

原创 零基础入门NLP之新闻分类

基于textcnn+word2vec的分类之前试验了fasttext进行文本分类的方法,最终效果并不是特别理想,比之前传统机器学习的得分稍低,这次试用textcnn+word2vec的方式进行训练word2vec是采用n-gram或CBOW的方式对输入数据进行编码,不同于one-hot编码,word2vec文本向量小(不再是词典大小),也不具有稀疏性,同时还考虑到了每个单词前后文的信息这里使用gensim库进行词向量的训练因为最终词向量是应用至embedding层,因此需要保存模型并建立对应转化表

2020-07-31 21:34:46 176

原创 零基础入门NLP之新闻分类

FastText的实现本次试验是基于fasttext的文本分类使用pip install fasttext可安装fasttext库因某些原因本机安装fasttext出错,于是使用pytorch写了简易的fasttext网络这里首先导入了训练数据和测试数据,由于使用fasttext第一层为embedding层,需要将每一条数据的文本个数调整为固定值,因此选取了文本最大值进行截断(未达到的使用未使用编码填充)之前观察了单词的对应情况,由于数据进行脱敏处理得到的全为数字,便不建立词库对应表,直接使用其

2020-07-27 22:18:46 307

原创 零基础入门NPL之新闻分类

基于机器学习的文本分类本部分将使用传统机器学习模型对数据集训练并对测试集进行分类首先需要做的是使用tf-idf对训练数据text部分进行编码在nlp中传统表示文本的方法有三种one-hot编码:统计全部单词进行词库的构建,词库大小为V,每一个单词可以表示为长度为V的向量,向量中V-1个值为0,仅向量对应词库索引位置值为1词袋模型:在one-hot编码中,每一行数据表示向量维度为NV(N为文本单词个数,V为词库大小),在词袋模型中,每一行数据表示向量维度为1V,其中向量中每一位置值代表其在句子中

2020-07-25 19:06:17 464

原创 零基础入门NLP之新闻分类

数据分析对赛题有一个大致了解之后接下来就是数据分析过程使用pandas读取训练数据和测试数据训练数据一共20W条,由label和text两列构成,label是其所属类别,text由其文本进行脱敏处理后得到的数字构成接下来统计句子的长度可以看出最短句子仅两个单词构成,最长句子由55757个单词构成,大部分句子由1000左右单词组成接下来看一下类别分布情况类别分布不均衡,最少类与最多类之间差距过大统计新闻中单词出现频次可以看出出现最多的为3750,900,648,几乎在每一条新闻中都出

2020-07-22 23:07:58 223

原创 零基础入门NLP之新闻分类

本次参加的比赛为天池和Datawhale联合举办的NLP入门比赛,比赛任务是根据所给文本数据分析出该文本所属新闻类别,可以理解为一个多分类问题。从天池官网下载到数据集,进行解压发现有三个表格,一个是训练数据,一个是测试数据,一个是提交样式表。观察训练数据,训练数据由两列组成,一个是label,也就是该条数据属于哪一类,一个是text,表明该条数据的文本组成信息。从赛题说明可以了解到,此次分类任务有14个候选类别,分别是财经、股票、房产、彩票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐.

2020-07-21 19:27:13 184

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除