《R数据科学》学习笔记|Note1:绪论

最新推荐文章于 2022-04-25 10:30:00 发布

木舟笔记

最新推荐文章于 2022-04-25 10:30:00 发布

阅读量338

点赞数

文章标签：编程语言 python 机器学习人工智能数据分析

本文链接：https://blog.csdn.net/weixin_45822007/article/details/114053496

版权

点击蓝字

关注我！

写在前面

本系列为《R数据科学》(R for Data Science)的学习笔记。相较于其他R语言教程来说，本书一个很大的优势就是直接从实用的R包出发，来熟悉R及数据科学。更新过程中，读者朋友如发现错误，欢迎指正。如果有疑问，也可以在评论区留言或后台私信。希望各位读者朋友能学有所得！

BOOK

前言

Part 1

你将学到什么？

数据科学是一个极其广阔的领域，仅靠一本书是不可能登堂入室的。本书的目标是教会你使用最重要的数据科学工具。在一个典型的数据科学项目中，需要的工具模型大体如下图所示。

首先，你必须将数据导入 R。

导入数据后，就应该对数据进行整理。如果数据是整洁的，那么每列都是一个变量，每行都是一个观测。

数据转换包括选取出感兴趣的观测（如居住在某个城市里的所有人）,使用现有变量创建新变量(如根据距离和时间计算出速度)，以及计算一些摘要统计量（如计数或均值）。

数据整理和数据转换统称为数据处理。

可视化本质上是人类活动。良好的可视化会让你发现意料之外的现象，或对数据提出新的问题。可视化能够带给你惊喜，但不要期望过高，因为毕竟还是需要人来对其进行解释。

模型是弥补可视化缺点的一种工具。如果已经将问题定义得足够清晰，那么你就可以使用一个模型来回答问题。但是每个模型都有前提假设，而且模型本身不会对自己的前提假设提出疑问，这就意味着模型本质上不能给你带来惊喜。

数据科学的最后一个步骤就是沟通。

围绕在这些技能之外的是编程。编程是贯穿数据科学项目各个环节的一项技能。

Part 2

本书的组织结构

我们尽量在每一章中使用同一种模式：先给出一些引人入胜的示例，以便你大体了解这一章的内容，然后再深入细节。本书的每一节都配有习题，以帮助你实践所学到的知识。虽然跳过这些习题是个非常有诱惑力的想法，但使用真实问题进行练习绝对是最好的学习方式。

Part 3

本书未包含的内容

大数据
本书主要讨论那些小规模的、能够驻留在内存中的数据集。当无法处理时，需要思考是否能把大数据转为小规模数据，又或者通过并行计算进行实现(sparklyr、rhipe、drr等)。
Python、Julia以及类似的语言
实际上，多数数据科学团队都会使用多种语言，至少会同时使用 R 和 Python。但是，我们认为最好每次只学习并精通一种工具。如果你潜心研究一种工具，那么会比同时泛泛地学习多个工具掌握得更快。这并不是说你只应该精通一种工具，而是说每次专注于一件事情时，通常你会进步得更快。在整个职业生涯中，你都应该努力学习新事物，但是一定要在充分理解原有知识后，再去学习感兴趣的新知识。

非矩形数据
矩形数据是值的集合，集合中的每个值都与一个变量和一个观测相关。很多数据集天然地不符合这种规范，比如图像、声音、树结构和文本。但是矩形数据框架在科技与工业领域是非常普遍的。我们认为它是开始数据科学旅途的一个非常好的起点。

假设验证
数据分析分为两类：假设生成(探索性分析)和假设严重(验证性分析)。无须掩饰，本书的重点就在于假设生成，或者说是数据探索。我们将对数据进行深入研究，并结合专业知识生成多种有趣的假设来帮助你对数据的行为方式作出解释。

Part 4

准备工作

为了运行本书中的代码，你需要 4 个工具：R、RStudio、一个称为 tidyverse 的 R 包集合，以及另外几个 R 包。

可以在 CRAN下载 R。CRAN 由分布在世界各地的很多镜像服务器组成，用于分发 R 和 R 包。不要尝试选择离你近的服务器，而应该使用云镜像：https://cloud.r-project.org，它会自动找出离你最近的服务器。

RStudio

RStudio 是用于 R 编程的一种集成开发环境。你可以从 http://www.rstudio.com/download 下载并安装。启动 RStudio 后，你会看到界面有以下两个关键区域：

tidyverse

你还需要安装一些 R 包。R 包是函数、数据和文档的集合，是对 R 基础功能的扩展。你在本书中学习的大多数 R 包都是tidyverse 的一部分。

你可以用一行代码完整地安装 tidyverse：

install.packages("tidyverse")

在计算机上启动 RStudio 并在控制台中输入这行代码，然后按回车键来运行。R 会从CRAN 下载这个包并将其安装在你的计算机上。如果安装有问题，请先确认你连接了互联网，再确认 https://cloud.r-project.org 没有被你的防火墙或代理服务器阻拦。如果没有使用 library() 函数加载 R 包，那么你就不能使用其中的函数、对象和帮助文件。一旦 R 包安装完成，你就可以使用 library() 函数进行加载：

library(tidyverse)

以上结果表明，tidyverse 正在加载 R 包 ggplot2、tibble、readr、purrr 和 dplyr。这些包被视为 tidyverse 的核心，因为几乎在所有的分析中都会用到它们。tidyverse 中的包修改得相当频繁。你可以通过运行

tidyverse_update()

函数来检查是否有更新，并选择是否进行更新。

后记

【机器学习自学笔记】由于最新的一章难度较大，且近日走亲访友时间较紧，故迟迟还未更新~这里向读者朋友们说声抱歉~当然后续也会慢慢更新，不会断更的。【R数据科学自学笔记】则为填补未更新的空挡，同时也为梳理和完善一下本人R语言学习脉络。这本书从R包入手，是学习R语言较好的学习资料。当然，如果是零基础入门的，可以结合《R语言实战》。

— END —

往期 · 推荐

零基础"机器学习"自学笔记|Note1:机器学习绪论

零基础"机器学习"自学笔记|Note2:单变量线性回归

零基础"机器学习"自学笔记|Note3:梯度下降法

零基础"机器学习"自学笔记|Note3:线性代数回顾

零基础"机器学习"自学笔记|Note5:多变量线性回归

零基础"机器学习"自学笔记|Note6:正规方程及其推导(内附详细推导过程)

欢迎关注木舟笔记

木舟笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《R数据科学》学习笔记|Note1:绪论

点击蓝字关注我！写在前面本系列为《R数据科学》(R for Data Science)的学习笔记。相较于其他R语言教程来说，本书一个很大的优势就是直接从实用的R包出发，来熟悉R及数据科学。...
复制链接

扫一扫