特征工程
文章平均质量分 85
棒子皮蹦蹦床
这个世界可能并不需要我,但我需要这个世界
展开
-
类别型变量因子化原因及方法总结
参考线性回归分析中的哑变量哑变量(Dummy Variable),也叫虚拟变量,引入哑变量的目的是,将不能够定量处理的变量量化,如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。 这种“量化”通常是通过引入“哑变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量(dummy variables),记为D。举一个例子,...原创 2018-03-22 11:58:45 · 5390 阅读 · 0 评论 -
数据缩放方法总结
一、标准化(Z-Score),或者去除均值和方差缩放标准分数(standard score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。用公式表示为:z=(x-μ)/σ。其中x为某一具体分数,μ为平均数,σ为标准差。Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数。标准分数的作用和特点:标...原创 2018-03-23 10:12:02 · 12344 阅读 · 1 评论 -
基于LendingClub数据的信贷分析和建模报告
一:课题分析二:数据获取三:数据探索3.1主要特征含义理解3.2特征分布3.2.1目标特征分布3.2.2分类变量的分布3.2.3连续数值特征分布3.2.4时序特征分布3.2.5文字特征分布3.2.6两两特征的协方差四:数据预处理4.1数据集划分4.2特征缺失值识别与处理4.2.1严重缺失值的处理4.2.2缺失值填充4.3同值性特...原创 2019-04-24 10:31:57 · 22796 阅读 · 14 评论