回归-基础知识

基本术语

  • 统计术语变量 variable 在计算机/数据库等行业也叫 属性 attribute 、特征 feature 、特性 characteristic 、字段 field
  • 数量变量 也叫 “指标”,定性变量 也叫 “维度”
  • 观测值 observation 也叫记录 record、对象 object 、点 point 、向量 vector 、 模式 pattern、事件 event、例 case、instance、样本 sample、或项、实体 entity

问题系列

什么是变量? 什么是定量变量? 什么是定性变量? 举例说明.
  • 变量是将数量变异标志称为变量。
  • 定量变量描述的是事务的数量特征,必须要用数值来体现。
  • 定性数据说明的是事物的品质特征,是不能用数值表示的,通常表现为类别。

    举例:

    小新有 3 个气球,分别是红黄蓝 3 种颜色,其中 变量 为 气球,定量变量 为 气球的数量,定性数据 为 气球的颜色分类。

[注]

  • 连续变量:在一定区间内可以任意取值的变量叫连续变量。如:身高,体重
  • 离散变量:可以按一定顺序一一列举,通常以整数位取值的变量。如:年龄,人数。
  • 数量变量:当变量的取值为数量时,【我觉得是连续变量和离散变量的并集】。如:身高,年龄。
  • 区间变量:表示范围的变量。

  • 名义变量:统计学术语,是以货币单位为基准的变量。名义变量和实际变量是就一个变量在不同的前提下来说的,名义变量是在现有的前提或条件下确定的数值,实际变量是在现有的前提或条件发生改变后的数值。名义变量和实际变量是用来比较条件发生改变时该变量的变化情况。

  • 分类变量:分类变量是指地理位置、人口统计等方面的变量,其作用是将调查响应者分群。
  • 描述变量:描述某一个客户群与其他客户群的区别。大部分分类变量也就是描述变量。
  • 定序变量:变量的一种,区别同一类别个案中等级次序的变量。例如年龄可以分为老、中、青。

什么是数据? 数据和变量有什么关系? 举例说明.
  • 数据:通过观察、实验或计算得出的结果,可以是文字、图像、声音等。
  • 数据和变量的关系:当一个数据的值需要经常改变或者不确定时,就应该用变量来表示。比如游戏积分。

    举例:

    上个例子,变量 是 气球 ,数据 是 气球的数量和颜色种类 。

什么是观测值? 观测值和变量有什么关系? 举例说明.
  • 观测值:指通过 测量或测定 所得到的样本值,是数量的一种。
  • 观测值和变量的关系:变量有很多观测值,每变化一次就有一次观测值。

    举例:

    上个例子,变量 是 气球 ,观测值 是 每一个 气球的数量和颜色种类 。

模型是什么? 举例说明.
  • 模型:指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。比如天气预测模型。

    举例:

    使用决策树模型,依据某一具体事物的特征对其进行分类。

这里写图片描述

构建模型的目的是什么? 举例说明.
  • 目的:为了更好的理解事物,对其进行数学处理或逻辑推演,以便得出结论。
  • 举例:

    如果想要对 蘑菇 进行分类,已知 样本数据以及分类情况 ,就可以进行 模型构建,基于样本数据进行拟合,从而达到通过 特征的数据值 进行分类的目的。

模型是根据什么建立的?举例说明.

模型是根据研究对象的性质所建立的。

例:建立回归模型的步骤

  • 确定研究对象,明确哪个变量是解释变量(x),哪个变量是预报变量(y)。-客观
  • 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系。-客观
  • 由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a)。-主观
  • 按一定规则估计回归方程中的参数(如最小二乘法)。-主观
  • 得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。-主观
模型是不是绝对正确的? 举例说明
  • 不一定。
  • 例:

    某个回归模型对 一堆数据 拟合得很好,对 另外一堆数据 却拟合得很不好

什么是因变量? 什么是自变量? 根据什么确定哪些变量是因变量还是自变量?
  • 简单点说,自变量是“原因”,而因变量就是“结果”。

  • 对结果有影响的变量(可能由自己操控,也可能不可改变)叫自变量,结果所依托的变量的是因变量。因变量在逻辑上位于自变量的后方。

    例:

    在蘑菇分类的模型中,蘑菇的 颜色,大小,气味 等等这些对 是否有毒 这一结果产生影响的变量成为 自变量,结果 是否有毒 则为因变量。

什么是有指导学习? 举例说明。
  • 有结果度量的指导学习过程。

    举例:

    根据某病人的 饮食习惯和血糖血脂 来预测糖尿病是否会发作。

什么是回归? 举例说明。
  • 回归:研究两组随机变量 x,y (或两组以上)之间关系的统计分析方法。(P.s 定量变量)
  • 回归的目的:用于预测分析。(如:预测分析中国人口 2018-2020 年增长情况)
  • 回归的具体步骤:1、确定变量 2、建立预测模型 3、进行相关分析 4、计算预测误差 5、确定预测值

    例:建立回归模型的步骤

  • 确定研究对象,明确哪个变量是解释变量(x),哪个变量是预报变量(y)。-客观

  • 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系。-客观
  • 由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a)。-主观
  • 按一定规则估计回归方程中的参数(如最小二乘法)。-主观
  • 得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。-主观
什么是分类? 举例说明。
  • 分类:指按照种类、等级或性质分别归类。(P.s 定性变量)
  • 分类的目的:将具有同种特征的事物归为一类。
  • 分类的步骤:

    1、确定分类的依据(种类、等级或性质)2、确定分类方法 3、执行分类方法 4、检查结果

    分类和回归的区别:分类研究定性变量,回归研究定量变量

    例:建立某省的 GDP 增长模型 - 回归
    根据 GDP高低 将全国省份进行分类 - 分类

什么是最小二乘回归? 还有没有别的回归? 举例说明。
  • 最小二乘回归:它通过最小化误差的平方和寻找数据的最佳函数匹配。
  • 最大似然估计:明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。
  • 其他回归:逻辑回归,多项式回归,逐步回归,岭回归,套索回归,ElasticNet回归。
什么是 logistic 回归? 它是回归吗? 它的目的是什么?
  • logistic回归:一种广义的线性回归分析模型,是一种分类方法,用于 2 分类问题。
  • 不属于回归,是分类模型
  • 目的:

    1、寻找危险因素
    2、预测(可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大)
    3、判别(判断某人属于某病或属于某种情况的概率有多大)

logistic 回归得到的预测结果是类吗? 还是什么别的?
  • logistic回归得到的预测结果不一定是类,
  • 可以是类,如预测是否患胃癌,
  • 也可以是数值,如从疝气病症预测病马的死亡率。
logistic 回归的结果依赖于什么主观选择?
  • 准则函数 的 优化方法(梯度上升算法 、随机梯度上升算法)
有几种决策树? 用什么来区分?
  • 两类,分类 和 回归
  • 用结果是 定性变量 还是 定量变量 来区分。
决策树的构成是什么? 举例说明.
  • 构成:决策树是一种树形结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

    例:

    利用面包的大小、形状两个属性进行分类,大小、形状作为两个内部节点,每个分支代表具体的面包类别。

什么是决策树的节点, 其构成是什么? 举例说明.
  • 决策树的节点分两种,叶子节点和非叶子节点。
  • 叶子节点代表输出的分类,非叶子节点代表对某个属性的测试。
什么是分类树节点的纯度? 举例说明.
  • 一个节点中所有样本的类别是否统一,如果都是一个类别,则纯度高。
  • 例:

    这里写图片描述

在每个决策树的节点, 需要选择拆分变量? 根据什么来选择拆分变量, 从什么地方选择? 举例说明.
  • 需要
  • 信息增益最大的变量作为拆分变量
  • 除去父
  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值