1.MapReduce-->SQL 在一些传统的it公司,MapRdeduce依然占据一定的份额,但是由于MapReduce开发时间过长,不便于快速修改维护。在许多互联网类型的公司,正在逐步采用HiveSql,SparkSql代替开发,且由于sql对UDF函数的支持,使得在不算太复杂的业务场景下,sql基本能实现对应的功能。
2.在进行数据分析时,往往一些简单的查询已经不能满足业务需求。这时候需要用到一些算法,对原始数据进行训练分析。往往采用python中的算法分析(正在学习)
3.数据来源具有多样性,因此使用前需要对数据进行清洗加工转换s(ETL)。