1.数据的概念:
对客观事件进行记录并可以鉴别的符号
2.信息=数据+处理(信息是有价值的数据)
3.从数据结构化程度分类:
结构化数据 半结构化数据 非结构化数据
4.数据的组织方式2种:文件和数据库
(ps:数据不会因为不断使用而减少价值反而因为重组增加价值)
5.典型的数据分析过程包括:
数据采集与预处理,数据存储与管理,数据处理与分析,数据可视化等等。
数据采集
6.数据采集三大要点:
全面性,多维性,高效性。
7.数据采集的数据源
①传感器数据
②互联网数据
③日志文件
④企业业务系统数据
8.数据采集方法
①系统日志采集
②分布式消息订阅分布
③ETL
④网络数据采集
9.数据清洗是指将大量原始数据中“脏”的洗掉
10.数据清洗的主要应用领域包括:
数据仓库与数据挖掘,数据质量管理。