R数据科学-第十二章模型构建

本文深入探讨R数据科学中的模型构建,通过钻石数据集揭示质量差的钻石为何更贵,分析其背后的混淆变量。同时,利用航班数据研究影响每日航班数量的因素,包括周内效应和季节性趋势。通过数据预处理、模型构建和残差分析,揭示模型背后隐藏的模式和规律。
摘要由CSDN通过智能技术生成

本章将利用真实的数据集介绍如何循序渐进地介绍模型bin并理解数据。

我们先利用数据可视化找出模型,然后通过模型更加具体而精确地提取出模式。之后再对残差进行分析。

我们将利用ggplot2::diamonds和nycflights13::flights数据集,需要的包如下:

library(tidyverse)
library(modelr)
library(ggplot2)
options(na.action=na.warn)
library(nycflights13)
library(lubridate)

一、为什么质量差的钻石更贵

将数据可视化我们观察到:质量差的钻石(切工差、颜色差、纯度低)具有更高的价格:

> ggplot(diamonds,aes(cut,price))+geom_boxplot()

> ggplot(diamonds,aes(color,price))+geom_boxplot()

D到J颜色等级降低。

> ggplot(diamonds,aes(clarity,price))+geom_boxplot()

I1纯度最差。

 造成这个反常现象的原因是由于一个混淆变量的存在:重量。

重量是决定钻石价格最重要的因素,而质量差的钻石往往更重些。

> ggplot(diamonds,aes(carat,price))+geom_point()

 通过拟合一个模型来分离出carat变量的作用,才可以更容易看出其他变量的影响。

第一步:数据预处理

1.重点关注carat<2.5的数据,因为那占了绝大部分数据。

2.将carat和price数据进行对数转换,以便更容易看出二者之间的关系。

> diamonds2<-diamonds%>%filter(carat<=2.5)%>%mutate(lprice=log2(price),lcarat=log2(carat))
> ggplot(diamonds2,aes(lcarat,lprice))+geom_point()

 第二步:构建模型去除二者之间这种强烈的线性模式

1.拟合一个模型让这种模式变为显式的

#首先按照原始carat的最大最小值构建一个等距的有20个数据的carat向量,之后加入lcarat=log2(carat)这一列&

清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)清华大学精品数据科学R语言全套课程PPT课件含习题(26页) 第1章 R语言绪论(1) (2)清华大学精品数据科学R语言全套课程PPT课件含习题(27页) 第2章 R语言入门 (3)清华大学精品数据科学R语言全套课程PPT课件含习题(53页) 第3章 数据模型 (4)清华大学精品数据科学R语言全套课程PPT课件含习题(15页) 第4章 数据准备 (5)清华大学精品数据科学R语言全套课程PPT课件含习题(66页) 第5章 数据可视化 (6)清华大学精品数据科学R语言全套课程PPT课件含习题(35页) 第6章 数据探索 (7)清华大学精品数据科学R语言全套课程PPT课件含习题(38页) 第7章 数据变换 (8)清华大学精品数据科学R语言全套课程PPT课件含习题(20页) 第8章 高级编程 (9)清华大学精品数据科学R语言全套课程PPT课件含习题(63页) 第9章 数据建模 (10)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第10章 数据评估 (11)清华大学精品数据科学R语言全套课程PPT课件含习题(21页) 第11章 影响大学平均录取分数线因素分析 (12)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第12章 收视率分析 (13)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop (14)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第14章 Rspark
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值