笔者是一个数据科学专业的本科生,这段时间学习了核心课程的数据分析与建模,汇总了一些考试的核心概念,分享到此
1.大数据的定义和4V特征
大数据泛指无法在可容忍的时间内用传统的理论,方法和技术以及软硬件工具对其进行获取,管理和分析的巨量数据集合,包含4V特性:variety(多样性)value(价值低)volume(容量大)velocity(速度快)
2.大数据存在的三个问题
海量数据与分析处理实时性的之间的矛盾
数据来源,数据种类和数据存储之间的矛盾
传统数据管理和大数据管理模式之间的矛盾
3.数据挖掘的概念
数据挖掘是指从数据库大量数据中解释处隐含的,先前未知的并有潜在价值的信息的非平凡过程,主要采用机器学习,人工智能,数据库处理,概率统计学,数据可视化的一些知识,高度自动化的分析数据,作出归纳性的推理,数据挖掘的和行任务是对数据特征和关系进行探索,建立。根据数据的特征可以将数据挖掘的功能分为两大类,有指导的学习和无指导的学习,通过学习,建立模型,实现分类,估计和预测三方面的功能
(判断题✅)概率统计是数据挖掘使用的一种方法,但是概率统计不等同与数据挖掘,数据挖掘可以使用机器学习,人工智能的一系列方法。
4.机器学习和数据挖掘的关系
机器学习是一门偏向理论性学科,采用大量的统计学知识,通过数据训