![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
暮雨潇潇_
这个作者很懒,什么都没留下…
展开
-
机器学习笔记(3)——机器学习方法的本质与常用的损失函数总结
本文概览:机器学习方法=模型+策略+算法;常见的6种损失函数参考资料:《机器学习基础:从入门到求职》原创 2020-08-04 00:27:44 · 148 阅读 · 0 评论 -
机器学习笔记(2)——机器学习回归模型和分类模型评价标准总结
本文主要总结了机器学习模型中回归模型和分类模型的评价指标。其中,回归模型的3种评价指标:平均绝对误差MAE、均方误差MSE以及均方根误差RMSE;分类模型的8种评价指标:准确率accuracy、精度precision、召回率recall、F1值、可以同时输出精度召回率F1值的classification_report函数、ROC曲线、AUC曲线以及混淆矩阵。...原创 2020-08-03 00:52:04 · 487 阅读 · 0 评论 -
机器学习笔记(1)——机器学习概述与机器学习的四种分类方式
机器学习与传统编程模式比较什么是机器学习机器学习的四种分类常见机器学习模型的分类参考文献:《机器学习基础:从入门到求职》,胡欢武著《数据分析求职指南》,徐麟著作原创 2020-08-01 20:14:53 · 730 阅读 · 0 评论 -
入门NLP新闻文本分类Task5——基于深度学习文本分类Word2Vec
概述Word2Vec的基本思想:首先把自然语言中的每一个词都表示成一个统一意义、同一纬度的短向量(Word Embedding),这样词与词之间的关系就可以用短向量之间的关系度量,即词向量之间的距离可以表示词语之间的相似度。Word2Vec模型包括两种:CBOW(Continuous Bag-of-Words Model)模型和Skip-gram(Continuous Skip-Gram Model)模型,这两种模型都可以使用基于哈夫曼树的Hierarchical Softmax方法或基于负采样的Neg原创 2020-07-31 23:56:20 · 441 阅读 · 0 评论 -
入门NLP新闻文本分类Task4——基于深度学习的文本分类之FastText
与传统机器学习模型不同,深度学习既提供特征提取功能,也可以完成分类功能。学习目标学会FastText的使用和基础原理学会使用验证集进行调参在机器学习的文本处理中,常用One-hot、Bag of Words、N-gram、TF-IDF来进行文本分类,并使用了sklearn进行了实践,但这些方法存在着文本转换后向量维度过高,需要较长时间的训练;没有考虑单词间的关系仅进行单词数量的统计等问题;而在深度学习中,也可以用FastText、Word2Vec和Bert等进行文本处理,并将文本映射到较低维原创 2020-07-27 22:19:35 · 537 阅读 · 0 评论 -
入门NLP新闻文本分类Task3——基于机器学习的文本分类
学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类常见概念机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。文本表示的方法在自然语言处理中,因为文本是不定长度的,所以,要将文本表示成计算机能够运算的数字或向量的方法,即通过词嵌入(Word Embedding)方法将不定长的文本转换为定长的空间内原创 2020-07-25 22:24:39 · 280 阅读 · 0 评论 -
入门NLP新闻文本分类Task2——数据读取与数据分析
数据加载#导入相关库import osimport pandas as pdimport matplotlib.pyplot as pltimport numpy as np#导入数据集os.chdir('D:/DLdata')#从数据集中随机抽取1%的数据df=pd.read_csv('D:/DLdata/train_set.csv/train_set.csv',sep='\t',skiprows=lambda x:x>0 and np.random.rand()>0.01)原创 2020-07-22 23:54:51 · 208 阅读 · 0 评论 -
Datawhale入门NLP比赛——Task1NLP之新闻文本分类赛题理解
赛题任务以自然语言处理为背景,对新闻文本进行分类,本质上是字符识别问题。赛题数据赛题数据包括三部分:训练数据集train_set.csv,共20W条、测试数据集test_a.csv,共5W条、以及结果提交格式示意文件test_a_sample_submit.csv。其中数据集按照字符级别进行了匿名处理,划分出了14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据标签14个候选文本分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、原创 2020-07-21 23:13:37 · 184 阅读 · 0 评论 -
机器学习算法——决策树(ID3、C4.5和CART算法总结)
一、 决策树是什么决策树是基于人们总结经验的树状决策图,是一种基本的分类和回归算法。二、决策树的原理1、 构造原理,如何构造出一个决策树,即选择哪些属性分别作为根节点、中间节点以及叶节点。2、剪枝原理,即给决策树瘦身,把对分类效果促进不明显的节点取掉的过程,分为前剪枝和后剪枝两种。前剪枝,即在构造决策树的过程中就进行剪枝。后剪枝,即将决策树构造完毕后再进行剪枝。如何确定各个节点1、根节点、中间节点以及叶节点的确定是基于纯度和信息熵。2、 决策树构造的过程就是寻找纯净划分的过程,数学上用原创 2020-07-13 16:20:03 · 1816 阅读 · 0 评论