近几年A(人工智能)B(大数据)C(云计算)发展火热,由于笔者在一二线互联网行业从事过大数据相关工作,因此决定在大数据领域对自己的所见所闻,来对该行业之外的人士所做一个讲述,以及对想进入刚行业的从业人员做个简单的讲述和分享。
大数据首先重要的就是数据,数据从哪里来,到哪里去,这个是我们需要探讨的。首先确定你数据量TB级别、PB级别 or EB级别。上图讲述了数据的来源从用户的数据、购买数据,以及最终的去处:存储、分析。因此可以看出大数据的核心其实是数据。
以笔者所在的电商平台为例(其他行业同样如此),用户在商城上购买商品,是基于在线交易系统的,称作为OLTP(联机事务)。而由于商城上每天都会产生这些信息,我们就需要把这些交易数据抽取到大数据这边,即:数据仓库。
数据仓库是用来存储所有的数据,包括用户的所有信息,购买记录、用户基本信息等等。然后对数据仓库中的数据做处理,构建数据集市,再对数据进行分析。根据商城上推出的活动,进行分析该活动是否有利于用户增长等等,最终用来反馈商城相应的调整活动信息。称之为OATP(联机分析)。
上图主要讲述了大数据的信息。通过上图我们可以将大数据大致划分为如下