机器学习
机器学习相关的笔记
Z字君
Hello Word
展开
-
常见分类算法优缺点
常见分类算法优缺点算法优点缺点Bayes 贝叶斯分类法1)所需估计的参数少,对于缺失数据不敏感。2)有着坚实的数学基础,以及稳定的分类效率。1)需要假设属性之间相互独立,这往往并不成立。2)需要知道先验概率。3)分类决策存在错误率。Decision Tree决策树1)不需要任何领域知识或参数假设。2)适合高维数据。3)简单易于理解。4)短时间内处理大量数据,得到...原创 2020-01-12 11:39:47 · 744 阅读 · 0 评论 -
监督学习模型整理
监督学习模型整理监督学习模型及特点最近邻 适用于小型数据集,是很好的基准模型,很容易解释线性模型 非常可靠的首选算法,适用于非常大的数据集,也适用于高维数据。朴素贝叶斯 只适用于分类问题。比线性模型速度快,适用于非常大的数据集和高维数据。精度通常低于线性模型。决策树 速度很快,不需要数据缩放,可以可视化,很容易解释随机森林 鲁棒性很好。不需要数据缩放。不适用于高维稀...原创 2019-01-20 23:27:04 · 11196 阅读 · 0 评论 -
scikit-learn中的数据变换方法
scikit-learn中的数据变换方法StandardScaler 每个特征的平均值为0、方差为1RobustScaler 使用中位数和四分位数,会忽略异常值MinMaxScaler 所有特征位于0和1之间Normalizer 每个数据点进行放缩,使得特征向量的欧式长度为1当模型返回数据的新表示时,使用transform方法from sklearn.prepr...原创 2019-01-21 20:49:22 · 295 阅读 · 0 评论 -
无监督学习模型整理
1、类型主要有两种类型:数据集变换和聚类。无监督变换:降维:接受数据的高维表示,找到新的表示方法,以用较少的特征概括重要特性。找到“构成”数据的各个组成部分。例如,文本的主题提取。聚类:将数据划分成不同的组,每组包含相似的物项2、降维1.主成分分析(PCA)一种旋转数据集的方法,旋转后的特征在统计上不相关。旋转后,通常根据新特征对数据集的重要性来选择它的一个子集。...原创 2019-01-21 20:51:05 · 9679 阅读 · 0 评论 -
处理文本数据
自然语言理解文本是区别于连续特征与分类特征的第三种类型的特征。字符串表示的数据类型字符串数据可以分成四类:分类数据可以在语义上映射为类别的自由字符串结构化字符串数据文本数据在文本分析的语境中,数据集通常被称为语料库,每个由单个文本表示的数据点被称为文档。词袋词袋: 舍弃输入文本的大部分结构,只计算语料库中每个单词在每个文本中的出现频次步骤分词 &...原创 2019-01-31 20:21:47 · 459 阅读 · 0 评论 -
数据表示与特征工程
数据表示与特征工程一、分类变量1.One-Hot编码(虚拟编码)**思想:**将一个分类变量替换成为一个或多个新特征,新特征取值为0或1。2.数字分类**理由:**便于存储、数据的收集方式简单**注:**pandas中的get_dummies函数只编码字符串特征,而将数字看作是连续的,不会改变整数特征为其创建虚拟变量。解决方案:使用scikit-learn中的OneHotEnco...原创 2019-01-28 22:02:34 · 366 阅读 · 0 评论 -
算法链与管道
算法链:大多数机器学习应用不仅需要应用单个算法,而且还需要将许多不同的处理步骤和机器学习模型链接在一起。管道:简化构建变换和模型链的过程。注:在交叉验证过程中,应该在进行任何预处理之前完成数据集的划分。任何从数据集提取信息的处理过程都应该仅用于数据集的训练部分,因此,任何交叉验证都应该位于处理过程的“最外层循环”。构建管道构建一个步骤列表组成的管道对象。每个步骤都是一个元组,其中包含名称和...原创 2019-01-30 20:40:19 · 457 阅读 · 0 评论 -
模型评估与改进
模型评估与改进一、交叉验证**k折交叉验证:**将数据分成k部分,每部分叫做折。在训练时,一个折作为测试集,其余折作为训练集。优点对数据的使用更加高效可以提供模型对训练集选择的敏感性信息每个样例刚好在测试集中出现一次缺点增加了计算成本速度慢(比单次划分大约慢k倍)分层k折交叉验证划分数据,使得每个折中类别之间的比例与整个数据集中的比例相同分层k折交叉验证比k折交叉验...原创 2019-01-29 21:11:57 · 2039 阅读 · 0 评论