用spss做哑变量(含spss安装教程)

本文深入讲解了哑变量编码的概念及应用,通过实例演示了如何在SPSS中对分类变量进行编码,以解决逻辑回归模型中无序变量的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关注 “番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。
 

首先介绍下什么是哑变量。哑变量是由虚拟变量衍生过来,指的是非数值型的字符变量转换而来的变量,通常情况下这些变量都是无序的变量。如性别、职业等等。

因为如果你用0表示女,1表示男,这里数值上,由于1大于0,所以会造成在模型解释上取值为男的权重会比女的大,所以对于这样的无序变量,通常不使用有大小的数值表示。而是引入两个虚拟变量sex_0与sex_1;

另外对某些好似是有序的变量如教育程度,这些是不是应该用梯度的数值的表示,如果高中、专科、本科、硕士分别对应0、1、2、3.,我个人也建议结合自家的数据情况分析,比如学历里对于数值相差较大,难道不能取0,3,5, 6?

OK,本篇文章来实际介绍下如何给数值进行哑变量编码。这里我们引入spss工具。这个不需要敲代码的工作,现在是sas、python、R的天下,但本人觉得工具只是实现的手段,重要的是理解里面的原理。

本次给各位介绍的是一份关于客户是否会愿意购买某超市产品的一份数据,里面包括的字段有性别(sex),负债能力(dept),产品价格(price),送货距离(distance)等数十个字段…然后我们去预测客户是否购买(purchase)产品,

首先,我们导入的数据如下:
在这里插入图片描述

具体的对应的数据如下:

在这里插入图片描述
我们此次选择用逻辑回归算法:
在这里插入图片描述
选取了purchase作为因变量,而此次为了操作简便只选取四个变量:sex, dept, price, distance;

接着需要把sex跟distance两个作为分类变量,进行相关的哑变量处理:
在这里插入图片描述
完成之后,直接单击下一步就完成了
在这里插入图片描述
输出以下结果:
在这里插入图片描述
可以看到哑变量输出里,因为性别是只有男女两个类型,所以哑变量只输出一个。而distiance有5种类型,输出4个哑变量;最后是关于其他数值的解读,我们有机会再在以后的文章里为各位解读。

接下来,是关于spps的安装教程,可略过
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

---------------------- --------------------- ------------------------------------- ----------------------
十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎关注 “番茄风控大数据”一起学习一起聊!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值