大数据学习笔记总结

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xuqiaobo/article/details/60966485

自己总结的这些知识点都是从赵勇编写的架构大数据-大数据技术及算法分析这本书上总结的。

在接触这本书之前,自己对于大数据的概念还很模糊,对于大数据和云计算的差别还是很不清楚,看完书之后,总结一下几点:

1)大数据主要侧重于数据的处理,流数据、批量数据、图计算等。在数据处理过程中,批量的数据处理的代表工具是Hadoop,流数据的数据处理代表的是Storm技术,而图计算这种密集型的代表是Spark,Spark对于迭代算法的处理很有效。

2)无论是Hadoop还是Spark的架构原理都侧重于分为三部分:资源的管理、服务计算状态的监控、服务的运行。把数据处理、数据处理监控和资源管理分开,可以更容易地进行分布式系统的扩展。

3)本书主要从数据的存储、数据的处理和数据的应用三个方面进行介绍,每一个方面结合现在的热门工具进行实情实景的分析。

4)我觉得印象最深的部分是关于机器学习和深度学习的,和常规对算法的认识不同,这些算法通过专业的数学知识进行计算后,瞬间觉得自己作为一个985的程序员,有机会需要重新学习一下高数。

5)最后一章电子商务与社会网络大数据分析,主要介绍了电子商务网站的推荐算法、推荐算法中数据的归一化处理和距离度量、相似度度量等

这是一本完整的读书笔记,希望对大家有用,我会把自己XMind格式的读书笔记上传的

展开阅读全文

没有更多推荐了,返回首页