大数据学习02:大数据课程概述与大数据背景知识

Hadoop2.X管理与开发

每日关注

 2019年3月21日 星期四

1. 阿里AI labs成立方言保护专项小组,投入1亿元保护汉语方言

2. 小红书上线“品牌号”,并进行五大模块升级

3. 知乎否认内测“知乎百科”产品,“百科”是知乎话题的简介

4. 民政部:养老院查询APP“养老通”在北京地区上线

一、什么是大数据

 举例:
 1、电商的推荐系统:
 (问题1)大量的订单如何存储?
 (问题2)大量的订单如何计算?注意:可能运用推荐算法(协同过滤、ALS、逻辑回归)
2、核心问题:
(1)数据的存储------->分布式的文件系统(HDFS)
(2)数据的计算------->分布式计算:MapReduce、Spark(RDD:弹性分布式数据集)

二、数据仓库和大数据

  1、传统方式:搭建数据仓库来解决大数据的问题
  2、数据仓库就是一个数据库(Oracle、MySql、MS)

搭建仓库的过程

三、OLTP和OLAP

 1、OLTP:Online Transaction Processing 联机事务处理 指:(insert、update、delete)事务传统的关系型数据库解决的问题
 
 2、OLAP:Online Analytic Processing联机分析处理
 数据仓库就是一种OLAP的应用系统
 Hadoop、Spark看成是一种数据仓库的解决方案

四、Google的基本思想

Google思想
分布式系统的基本思想

   第二份优先保存在不是第一个机架的机架上(安全)
   第三份优先保存在第一个机架上的另一个服务器上(效率)

机器感知的基本思想

(一)GFS(Google File System)
     1、分布式文件系统
     2、大数据的存储问题
     3、HDFS中,记录数据保存的位置信息(元信息)--->采用倒排索引(Reverted Index)
     (*)什么是索引?index
            (1)create index 创建索引
            (2)就是一个目录
            (3)通过索引找到对应的数据
            (4)索引一定可以提高查询的速度
            
     
     (*)什么是倒排索引?

大数据解决的问题及方法

  (二)MR:分布式计算模型:问题来源:PageRank(网页排名)
  
(三)BigTable:大表-----------NoSql数据库:Hbase
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值