Python
暮雨潇潇_
这个作者很懒,什么都没留下…
展开
-
入门NLP新闻文本分类Task4——基于深度学习的文本分类之FastText
与传统机器学习模型不同,深度学习既提供特征提取功能,也可以完成分类功能。学习目标学会FastText的使用和基础原理学会使用验证集进行调参在机器学习的文本处理中,常用One-hot、Bag of Words、N-gram、TF-IDF来进行文本分类,并使用了sklearn进行了实践,但这些方法存在着文本转换后向量维度过高,需要较长时间的训练;没有考虑单词间的关系仅进行单词数量的统计等问题;而在深度学习中,也可以用FastText、Word2Vec和Bert等进行文本处理,并将文本映射到较低维原创 2020-07-27 22:19:35 · 572 阅读 · 0 评论 -
入门NLP新闻文本分类Task3——基于机器学习的文本分类
学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类常见概念机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。文本表示的方法在自然语言处理中,因为文本是不定长度的,所以,要将文本表示成计算机能够运算的数字或向量的方法,即通过词嵌入(Word Embedding)方法将不定长的文本转换为定长的空间内原创 2020-07-25 22:24:39 · 326 阅读 · 0 评论 -
入门NLP新闻文本分类Task2——数据读取与数据分析
数据加载#导入相关库import osimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np#导入数据集os.chdir('D:/DLdata')#从数据集中随机抽取1%的数据df=pd.read_csv('D:/DLdata/train_set.csv/train_set.csv',sep='\t',skiprows=lambda x:x>0 and np.random.rand()>0.01)原创 2020-07-22 23:54:51 · 249 阅读 · 0 评论 -
Datawhale入门NLP比赛——Task1NLP之新闻文本分类赛题理解
赛题任务以自然语言处理为背景,对新闻文本进行分类,本质上是字符识别问题。赛题数据赛题数据包括三部分:训练数据集train_set.csv,共20W条、测试数据集test_a.csv,共5W条、以及结果提交格式示意文件test_a_sample_submit.csv。其中数据集按照字符级别进行了匿名处理,划分出了14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据标签14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、原创 2020-07-21 23:13:37 · 209 阅读 · 0 评论 -
Pandas数据分析基础总结(导图版)
微信公众号数据不吹牛号主开源了一本《用实战玩转Pandas数据分析》,本书分为两篇:基础篇和实战篇(资料可在其公号下载)。本文是基础篇的学习总结。原创 2020-07-14 22:07:43 · 398 阅读 · 0 评论