特征工程
文章平均质量分 94
机器学习中最重要的步骤——特征工程,记录都有哪些特征工程
Ma Sizhou
读书不多,想得太多。
展开
-
特征工程——主成分分析(PCA)的原理解析
目录一、使用最大方差理论解析PCA原理1、原理解析:2、总结:二、最小平方误差理论解析PCA原理1、原理解析2、总结在机器学习领域中,我们对原始数据进行特征提取,有时会得到比较高维的特征向量。在这些向量所处的高维空间中,包含很多的冗余和噪声。我们希望通过降维的方式来寻找数据内部的特性,从而提升特征表达能力,降低训练复杂度。主成分分析(Principal Components Analysis,PCA)作为降维中最经典的方法,至今已有100多年的历史,它属于一种线性、非监督、全局的降维算法,是面试中经常.原创 2021-03-17 09:15:22 · 2017 阅读 · 0 评论 -
特征工程——什么是 维数灾难,与过拟合又有什么联系?
目录维灾难1 什么是维灾难2 维数灾难与过拟合维灾难1 什么是维灾难随着维度的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降有一系列的图片,每张图片的内容可能是猫也可能是狗;我们需要构造一个分类器能够对猫、狗自动的分类。首先,要寻找到一些能够描述猫和狗的特征,这样我们的分类算法就可以利用这些特征去识别物体。猫和狗的皮毛颜色可能是一个很好的特征,考虑到红绿蓝构成图像的三基色,因此用图片三基色各自的平均值称得上方便直观。这样就有了一个简单的Fisher分类器:if 0.5*red +.原创 2021-03-15 11:20:12 · 1101 阅读 · 0 评论 -
特征工程——为什么要特征降维?特征降维有哪些方法?如何使用sklearn实现?
特征降维1、降维1.1 定义降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程降低随机变量的个数相关特征(correlated feature)比如,相对湿度与降雨量之间的相关,我们就可以只选择一个正是因为在进行训练的时候,我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大1.2 降维的两种方式特征选择主成分分析(可以理解一种特征提取的方式)2、特征选择2.1 定义数据中包含冗余或无关原创 2021-03-12 09:07:06 · 6974 阅读 · 0 评论 -
特征工程——什么是特征提取?本文使用sklearn实现字典特征提取和文本特征提取
目录特征工程——特征提取1、特征提取1.1 定义1.2 特征提取API2、字典特征提取2.1 应用2.2 流程分析2.3 总结3、文本特征提取3.1 应用3.2 流程分析3.3 jieba分词处理3.4 案例分析3.5 Tf-idf文本特征提取3.5.1 公式3.5.2 案例3.6 Tf-idf的重要性4、总结:特征工程——特征提取特征提取是特征工程里面的一部分操作,下面开始介绍特征提取:什么是特征提取呢?1、特征提取1.1 定义将任意数据(如文本或图像)转换为可用于机器学习的数字特征.原创 2021-03-08 10:49:08 · 972 阅读 · 0 评论 -
特征工程——特征预处理(归一化和标准化),通过例子并利用sklearn实现归一化和标准化
目录特征工程——特征预处理1.1 什么是特征预处理1.1.1 特征预处理定义1.1.2 包含内容(数值型数据的无量纲化)1.1.3 特征预处理API1.2 归一化1.2.1 定义1.2.2 公式1.2.3 API1.2.4 数据计算1.2.5 归一化总结1.3 标准化1.3.1 定义1.3.2 公式1.3.3 API1.3.4 数据计算1.3.5 标准化总结总结:上面就是特征工程所要做的事,下面我们就只针对特征预处理来做一个介绍:特征工程——特征预处理1.1 什么是特征预处理1.1.1 特征预.原创 2021-03-12 16:44:08 · 1759 阅读 · 0 评论