常识
- 大数据、物联网、云计算是第三次浪潮的标志
- 云计算
- 海量数据的分布式存储和分布式处理
- 虚拟化和多用户
- 服务的方式提供服务,网络购买
- 公有云、私有云、混合云
- IaaS 基础设施即服务
- PaaS 平台即服务
- SaaS 软件即服务
- 大数据继承自云计算
- 物联网促使大数据时代到来的质变
- 存储单位的:B KB GB TB PB EB ZB
- 价值密度低
- 大数据时代
- 全样而非抽样
- 效率而非精确
- …
- 应用
- 投拍电视剧
- 预测流感
- 批处理计算
- 流计算
- 图计算
- 查询分析计算
物联网层次架构
- 应用层
- 处理层
- 网络层
- 感知层
二维码 - 单元格,有信息为填色识别为1
- 周围三个为定位辅助功能
大数据相关技术总结
- Spark
- 专为大规模数据处理而设计的快速通用的计算引擎。
- 不再需要读写HDFS
- 启用了内存分布数据集
- 能够提供交互式查询
- HBase
- 分布式(存储系统)的、面向列的开源数据库
- Hadoop
- 分布式系统基础架构,能够对大量数据进行分布式处理的软件框架
- 实现了HDFS(分布式文件系统)
- Storm
- 分布式实时大数据处理框架
- 流计算
- Pregel
- 图计算
- Dremel
- Dremel is a distributed system developed(分布式系统) at Google for interactively querying large datasets.
- Dremel is the query engine used in Google’s BigQuery service.
- Dremel is the inspiration for Apache Drill[2], Apache Impala, and Dremio, an Apache licensed platform that includes a distributed SQL execution engine.
- MapReduce
- 基于集群的高性能并行计算平台
- 并行计算与运行软件框架
- 并行程序涉及模型与方法
- 将分布式计算抽象为Map和Reduce两个阶段的编程模型
- Hive
- 基于(静态批处理的)Hadoop的一个数据仓库工具
- 底层执行使用的是MapReduce
- S4
- Impala
- 快速
- 交互性查询
- GraphX
- 分布式图处理框架
- Cassandra
- 开源分布式NoSQL数据库系统
- Flume
- 分布式海量日志采集、聚合和传输系统
大数据的四种主要计算模式
- 图计算
- 批处理计算
- 查询分析就散
- 框计算
大数据五大关键技术
应用
推荐系统
- 推荐系统模型
推荐系统应用
在线购物、应用啥的
长尾理论
- 冷门商品的总销售额可能超过热门的销售总额
- 个性化推荐可以通过个性化推荐进行推荐销售
- 推荐方法
- 专家推荐
- 统计推荐:热门排行榜
- 基于内容推荐
- 协同过滤推荐
协同过滤(UserCF)
-
基于用户
- UserCF
- 找到和目标用户兴趣相似的用户集合
- 找到该集合中的用户所喜欢的、且目标用户没有听说过的物品推荐给目标用户
- 余弦相似度计算
- 泊松相关系数
- 调整余弦相关系数
- UserCF
-
基于物品
- ItemCF
- 计算物品之间的相似度
- 根据物品的相似度和用户的历史行为,给用户生成推荐列表
- ItemCF