数据可视化学习笔记(三)

大数据技术介绍

大数据应用开发流程

  • 数据采集与预处理
  • 大数据存储与管理
  • 大数据分析与挖掘
  • 大数据可视化

1.数据采集与预处理

  • 数据来源
    • 人所产生的数据
    • 机器、设备和物体的数据(通过传感器)
    • 行业、科研实验数据(大型数据)
  • 数据采集方法
    • 系统日志采集方法
      • 网站点击率、网页浏览痕迹等
    • 网页数据采集方法
      • 推文、评论、新闻信息等
  • 数据预处理
    • 初始数据的获取
    • 数据清理
    • 数据集成与融合
    • 数据变换
    • 数据归约

2.大数据存储与管理

  • 数据类型
    • 结构化数据
      • 保存在数据库中
      • 关系型数据库、非关系型数据库
    • 非结构化数据
      • 文本、图片、音频、视频文件等
      • 分布式文件系统
    • 半结构化数据
      • xml文件,json文件,计算机日志信息等
      • 用自定义的结构来存储数据
  • 数据存储方式
    • 分布式文件系统
      • 90%的大数据都是非结构化数据
      • 分布式文件系统是把一个文件分割成很多个小的数据块,分布地存储到多个计算机节点上。
      • 为了保证系统的容错性和可靠性
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值