UA MATH571A R语言回归分析实践 多元回归1 医疗费用
这一讲开始讨论多元回归,这里选择的例子是寻找家庭医疗费用的决定因素。家庭医疗费用由哪些因素决定是卫生经济学、保险精算等领域共同关注的问题之一,它对于医疗收费与补贴政策的制定、健康医疗保险保费厘定等具有重要指导意义。这个例子的数据我上传资源了,如果需要可以自行下载。
先来看看数据大概什么样子
我们关注的被解释变量是charges,这个就是是家庭医疗费用(用 Y Y Y表示),它是一个quantitative variable,也就是数值型变量;年龄age、性别sex、体质比BMI、children、smoker、地区region是解释变量(分别用 X 1 , X 2 , ⋯ , X 6 X_1,X_2,\cdots,X_6 X1,X2,⋯,X6表示)。其中sex、smoker和region是categorical variable或者qualitative variable,也就是类型变量,他们的值只是表示属于某个类型,没有数值上的含义。Smoker指的是个体是否吸烟、children指的是有几个小孩。
基础回归分析
根据这些变量,我们可以构建一个baseline
Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 + ϵ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \beta_4 X_4+ \beta_5 X_5+ \beta_6 X_6+\epsilon Y=β0+β1X1+β2