上篇:机器学习(二) -- 数据预处理(2)
下篇:机器学习(三) -- 特征工程(1)
前言
tips:标题前有“***”的内容为补充内容,是给好奇心重的宝宝看的,可自行跳过。文章内容被“
文章内容”删除线标记的,也可以自行跳过。“!!!”一般需要特别注意或者容易出错的地方。
本系列文章是作者边学习边总结的,内容有不对的地方还请多多指正,同时本系列文章会不断完善,每篇文章不定时会有修改。
五、***【数据集成】
将多个数据源中的数据合并,存放于一个一致的数据存储中。
数据集成过程中的关键问题:1. 实体识别、2. 数据冗余和相关分析、3.元组重复、4. 数据值冲突检测与处理
常见的数据集成方式包括:数据堆叠(stack)、数据合并(merge)和数据拼接(concatenate)等。
不算最重要的,大致了解即可。
六、***【数据变换】
数据变换是指将原始数据集转换成适合机器学习算法模型的新数据集的过程,它是机器学习中重要的一步。在数据变换的过程中,常常需要对数据进行特征缩放、特征选择和特征降维等操作。
(提前解答好奇宝宝:其实数据预处理和特征工程,两者并无明显的界限,都是为了更好的探索数据集的结构,获得更多的信息,将数据送入模型中之前进行整理。可以说数据预处理是初级的特征处理,特征工程是高级的数据预处理,也可以说这里的预处理过程是广义的,包含所有的建模前的数据预处理过程。)既然如此这个就特征工程的时候讲。
七、***【数据归约】
数据挖掘时往往数据量非常大,在大量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。也就是说,在归约后的数据集上挖掘将更有效,而且仍会产生相同或相似的分析结果。
数据归约包括维度归约、数量归约和数据压缩。
维度归约:如果数据只有有些维度对数据挖掘有益,就可以去除不重要的维度,保留对挖掘有帮助的维度。
数量归约:另外一种处理数据相关性的方式是将数据表示为不同的形式来减小数据量,如聚类、回归等
数据压缩:如果数据具有潜在的相关性,那么数据实际的维度可能并不高,可以用变换的方式,用低维的数据对高维数据进行近似的表示。
非参数化数据归约包括直方图、抽样、数据立方体聚集等方法。
直方图:直方图方法就是分箱。
抽样:通过选取随机样本(子集),实现用小数据代表大数据的过程。
数据立方体聚集:数据立方体聚集帮助我们从低粒度的数据分析聚合成汇总粒度的数据分析
八、数据拆分
数据拆分:机器学习中的数据集划分一般分为两个部分:
训练数据:用于训练,构建模型。一般占70%-80%(数据量越大,取得比例最好越大)
测试数据:用于模型评估,检验模型是否有效。一般占20%-30%
x_train, x_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=125)
data:数据
target:标签
test_size:测试集占比。如0.2,则测试集占20%,训练集占80%。
random_state:随机数种子。简单来说,用相同的随机数种子完成的划分结果是相同的(随机数种子并不随机)。
机器学习的数据集可以划分为三个部分:
训练数据:用于训练,构建模型。
验证数据:辅助构建模型,用于构建过程中评估模型,提供无偏估计,进而调整模型参数。
测试数据:用于评估训练好的最终模型的性能。
tips:一般在深度学习中会分为3个集合,原因是在深度学习中需要调节模型配置,比如选择层数或每层大小(这里是模型超参数,以便与模型参数(权重)区分),这个调节过程需要使用模型在验证数据上的性能作为反馈信号。这个调节过程本质就是一种学习:在某个参数空间中寻找良好的模型配置。因此,如果基于模型在验证集上的性能来调节模型配置,会很快导致模型在验证集上过拟合,即使你并没有在验证集上直接训练模型也会如此。
造成这一现象的关键在于信息泄露( information leak )。每次基于模型在验证集上的性能来调节模型超参数,都会有一些关于验证数据的信息泄露到模型中。如果对每个参数只调节一次,那么泄露的信息很少,验证集仍然可以可靠地评估模型。但如果你多次重复这一过程(运行一次实验,在验证集上评估,然后据此修改模型),那么将会有越来越多的关于验证集的信息泄露到模型中。
最后,你得到的模型在验证集上的性能非常好(人为造成的),因为这正是你优化的目的。你关心的是模型在全新数据上的性能,而不是在验证数据上的性能,因此你需要使用一个完全不同的、前所未见的数据集来评估模型,它就是测试集。你的模型一定不能读取与测试集有关的任何信息,既使间接读取也不行。如果基于测试集性能来调节模型,那么对泛化能力的衡量是不准确的。
总结:为什么要3个集合?
为了防止调参产生的信息泄露对真实测评的影响。
旧梦可以重温,且看:机器学习(二) -- 数据预处理(2)
欲知后事如何,且看:机器学习(三) -- 特征工程(1)