基本术语
- 统计术语变量
variable
在计算机/数据库等行业也叫 属性attribute
、特征feature
、特性characteristic
、字段field
- 数量变量 也叫 “指标”,定性变量 也叫 “维度”
- 观测值
observation
也叫记录record
、对象object
、点point
、向量vector
、 模式pattern
、事件event
、例case、instance
、样本sample
、或项、实体entity
问题系列
什么是变量? 什么是定量变量? 什么是定性变量? 举例说明.
- 变量是将数量变异标志称为变量。
- 定量变量描述的是事务的数量特征,必须要用数值来体现。
定性数据说明的是事物的品质特征,是不能用数值表示的,通常表现为类别。
举例:
小新有 3 个气球,分别是红黄蓝 3 种颜色,其中
变量
为 气球,定量变量
为 气球的数量,定性数据
为 气球的颜色分类。
[注]
- 连续变量:在一定区间内可以任意取值的变量叫连续变量。如:身高,体重
- 离散变量:可以按一定顺序一一列举,通常以整数位取值的变量。如:年龄,人数。
- 数量变量:当变量的取值为数量时,【我觉得是连续变量和离散变量的并集】。如:身高,年龄。
区间变量:表示范围的变量。
名义变量:统计学术语,是以货币单位为基准的变量。名义变量和实际变量是就一个变量在不同的前提下来说的,名义变量是在现有的前提或条件下确定的数值,实际变量是在现有的前提或条件发生改变后的数值。名义变量和实际变量是用来比较条件发生改变时该变量的变化情况。
- 分类变量:分类变量是指地理位置、人口统计等方面的变量,其作用是将调查响应者分群。
- 描述变量:描述某一个客户群与其他客户群的区别。大部分分类变量也就是描述变量。
- 定序变量:变量的一种,区别同一类别个案中等级次序的变量。例如年龄可以分为老、中、青。
什么是数据? 数据和变量有什么关系? 举例说明.
- 数据:通过观察、实验或计算得出的结果,可以是文字、图像、声音等。
数据和变量的关系:当一个数据的值需要经常改变或者不确定时,就应该用变量来表示。比如游戏积分。
举例:
上个例子,
变量
是 气球 ,数据
是 气球的数量和颜色种类 。
什么是观测值? 观测值和变量有什么关系? 举例说明.
- 观测值:指通过 测量或测定 所得到的样本值,是数量的一种。
观测值和变量的关系:变量有很多观测值,每变化一次就有一次观测值。
举例:
上个例子,
变量
是 气球 ,观测值
是 每一个 气球的数量和颜色种类 。
模型是什么? 举例说明.
模型:指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。比如天气预测模型。
举例:
使用决策树模型,依据某一具体事物的特征对其进行分类。
构建模型的目的是什么? 举例说明.
- 目的:为了更好的理解事物,对其进行数学处理或逻辑推演,以便得出结论。
举例:
如果想要对 蘑菇 进行分类,已知 样本数据以及分类情况 ,就可以进行 模型构建,基于样本数据进行拟合,从而达到通过 特征的数据值 进行分类的目的。
模型是根据什么建立的?举例说明.
模型是根据研究对象的性质所建立的。
例:建立回归模型的步骤
- 确定研究对象,明确哪个变量是解释变量(x),哪个变量是预报变量(y)。-
客观
- 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系。-
客观
- 由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a)。-
主观
- 按一定规则估计回归方程中的参数(如最小二乘法)。-
主观
- 得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。-
主观
模型是不是绝对正确的? 举例说明
- 不一定。
例:
某个回归模型对 一堆数据 拟合得很好,对 另外一堆数据 却拟合得很不好
什么是因变量? 什么是自变量? 根据什么确定哪些变量是因变量还是自变量?
简单点说,自变量是“原因”,而因变量就是“结果”。
对结果有影响的变量(可能由自己操控,也可能不可改变)叫自变量,结果所依托的变量的是因变量。因变量在逻辑上位于自变量的后方。
例:
在蘑菇分类的模型中,蘑菇的 颜色,大小,气味 等等这些对 是否有毒 这一结果产生影响的变量成为 自变量,结果 是否有毒 则为因变量。
什么是有指导学习? 举例说明。
有结果度量的指导学习过程。
举例:
根据某病人的 饮食习惯和血糖血脂 来预测糖尿病是否会发作。
什么是回归? 举例说明。
- 回归:研究两组随机变量
x,y
(或两组以上)之间关系的统计分析方法。(P.s 定量变量) - 回归的目的:用于预测分析。(如:预测分析中国人口 2018-2020 年增长情况)
回归的具体步骤:1、确定变量 2、建立预测模型 3、进行相关分析 4、计算预测误差 5、确定预测值
例:建立回归模型的步骤
确定研究对象,明确哪个变量是解释变量(x),哪个变量是预报变量(y)。-
客观
- 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系。-
客观
- 由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a)。-
主观
- 按一定规则估计回归方程中的参数(如最小二乘法)。-
主观
- 得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。-
主观
什么是分类? 举例说明。
- 分类:指按照种类、等级或性质分别归类。(P.s 定性变量)
- 分类的目的:将具有同种特征的事物归为一类。
分类的步骤:
1、确定分类的依据(种类、等级或性质)2、确定分类方法 3、执行分类方法 4、检查结果
分类和回归的区别:分类研究定性变量,回归研究定量变量
例:建立某省的
GDP
增长模型 - 回归
根据GDP高低
将全国省份进行分类 - 分类
什么是最小二乘回归? 还有没有别的回归? 举例说明。
- 最小二乘回归:它通过最小化误差的平方和寻找数据的最佳函数匹配。
- 最大似然估计:明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。
- 其他回归:逻辑回归,多项式回归,逐步回归,岭回归,套索回归,ElasticNet回归。
什么是 logistic 回归? 它是回归吗? 它的目的是什么?
- logistic回归:一种广义的线性回归分析模型,是一种分类方法,用于
2
分类问题。 - 不属于回归,是分类模型
目的:
1、寻找危险因素
2、预测(可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大)
3、判别(判断某人属于某病或属于某种情况的概率有多大)
logistic 回归得到的预测结果是类吗? 还是什么别的?
- logistic回归得到的预测结果不一定是类,
- 可以是类,如预测是否患胃癌,
- 也可以是数值,如从疝气病症预测病马的死亡率。
logistic 回归的结果依赖于什么主观选择?
- 准则函数 的 优化方法(梯度上升算法 、随机梯度上升算法)
有几种决策树? 用什么来区分?
- 两类,分类 和 回归
- 用结果是 定性变量 还是 定量变量 来区分。
决策树的构成是什么? 举例说明.
构成:决策树是一种树形结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
例:
利用面包的大小、形状两个属性进行分类,大小、形状作为两个内部节点,每个分支代表具体的面包类别。
什么是决策树的节点, 其构成是什么? 举例说明.
- 决策树的节点分两种,叶子节点和非叶子节点。
- 叶子节点代表输出的分类,非叶子节点代表对某个属性的测试。
什么是分类树节点的纯度? 举例说明.
- 一个节点中所有样本的类别是否统一,如果都是一个类别,则纯度高。
例:
在每个决策树的节点, 需要选择拆分变量? 根据什么来选择拆分变量, 从什么地方选择? 举例说明.
- 需要
- 信息增益最大的变量作为拆分变量
- 除去父节点选择的属性,在剩下的属性中选择熵值最大的属性作为该节点的拆分变量。
拆分变量可以在不同节点重复使用吗? 依据是什么?
- 拆分变量不能在不同节点重复使用。</