One Week
这是我的第一篇博客,纪念一下!开学第一周:Happy and exhaustion~
刚返校时我好开心,开学上课的第一天心里也满是欢喜,也见到了许久未见的老师和同学。接下来说一说我这一周的收获吧!刚开学的第一节课当然说的都是这学期的教学规划,以及这学期所需学习的内容。第二节课就都进入了正题。
R数据分析分享
首先说说在R数据分析中学到的知识吧。关于数据分析的基本步骤如下图
其中原始数据的来源有很多,可以通过网上调查,爬取,以及线下的调研分析采访等。
R语言数一种开源的脚本语言。可用来做数据分析预测以及数据可视化。它是开源且免费的。
R语言的特点主要有四点:1、适用于统计计算和机器学习,2、简单易学,具有高度的灵活性,3、支持高质量的图形和强大的可视化功能,4、代码形式简洁。有关R中对目录、对象与包的管理有以下函数。
这里使用的集成开发环境是IDE。
它的优点是:1、节省时间和精力,2、统一代码标准,3、完善的调试环境。Rstudio是一个免费的R语言IDE,它具有语法高亮、命令补全、对象刘兰、语法错误检查以及断电调试等功能,可以大大提高开发效率。
R中的包存储在计算机上名为library的目录下。
使用函数.libPaths ()可以查看该文件夹在计算机中的具体路径,
函数library ()显示已安装的包的列表,
函数search ()显示已加载的包的列表,
用函数install.packages()进行下载安装所需的包
在用函数library ()载入函数,之后才可以调用。
接下来说下移除detach()和卸载 remove.package(),移除只是移除了目录下的包,但是它依旧存在于你的电脑中,卸载则可彻底删除。
R语言的主要数据类型有6种(逻辑型、浮点型、整数型、字符型、复数型、原始型)。
之后学习了编写判断数据类型以及数据类型转换的编码。
数据转换中从小到大是逻辑型>整数型>浮点型>字符型。
在一些运算过程中,数据类型自动转换。也可使用as***函数来强制转换数据类型。
在R中向量是最小单元。特殊值中有缺失值(NA,not available)、无穷大(Inf)和无意义值(NAN,not a number)以及空值(NULL)
R中数据结构主要有(向量、矩阵、 数组、列表、数据框、因子)。
以上就是第一周有关R数据分析所学的知识。
数据挖掘分享
接下来说说数据挖掘吧!
大数据不仅仅是数据的“大量化”,而是包含“快速化”、“多样化”和“价值化”等多重属性。大数据有以下几特征需要掌握:
数据挖掘是从大量数据中提取出有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。有关数据挖掘之前需要对数据集进行处理,具体过程如图。
其中数据集类型主要分为:关系数据、结构化数据,半结构化数据以及更多复杂的多媒体数据。
数据中属性的类型主要分为:标称属性(分类属性)、二元属性(布尔属性)、序数属性和数值属性。
其中的标称属性是无序的;二元属性是只有两个值的0和1的;序数属性和标称属性是类似的,都是分类的,不同是其属性值之间具有有意义的序,但相继之间的差是未知的;数值属性是定量的(1、区间标度属性,2、比率标度属性),数值属性没有真正的零值,但具有固有的零点数值,其他三类属性是定性的。
有些属性也分成离散属性和连续属性,离散属性的取值是有限的,可以是汉字,单词,也可以是整数。连续属性是一定区间内其数值是连续不断地,可取无限的数值。
以上就是数据挖掘所学习的内容。
今天就先说到这里吧!~~~
感谢您的观看!Thanks!