大数据与云计算概论

大数据的关键技术
(1) 数据处理:自然语言处理技术;多媒体内容理解;图文转换技术等。
(2)统计和分析: A/B test;地域占比;_文本情感分析;语义分析技术。
(3) 数据挖掘:关联规则分析;分类;聚类。
(4)模型预测:预测模型;机器学习;建模仿真;模式识别技术等。
2.大数据预处理技术
(1) 数据采集: ETL (Extract-Transform-Load) 工具。
(2)数据存取:关系数据库; NoSQL; SQL等。
(3)基础架构支持:云存储;分布式文件系统等。
(4) 计算结果展现:云计算;标签云;关系图等。
3.数据存储
(1)结构化数据:海量数据的查询、统计、更新等操作效率低。
2) 非结构化数据:图片、视频、Word、 PDF、等文件存储,不利于检索、查询和存储。(3) 半结构化数据:要么转换为结构化存储,要么按非结构化存储。
4.数据计算
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的- -个接口。数据采集技术广泛引用在各个领域。比如摄像头,麦克风,都是数据采集工具。数据采集,还有一种解释就是网站数据的采集
数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深.度,极大地影响着人类社会发展的进程。
数据处理的过程大致分为数据的准备、处理和输出3个阶段。
数据采集
数据采集的方法
1.系统日志采集:使用日志收集系统,收集业务日志数据供离线和在线的分析系统使用。网络数据采集:通过网络爬虫或网站公开API等方式从网站上获取数据信
2.息,可以将非结构化数据以结构化的方式存储。数据库采集:在采集端部署大量数据库,并对如何在这些数据库之间进
3.行负载均衡和分片进行深入的思考和设计。
数据清洗
为什么进行数据清洗
现实世界中的数据是“脏”的
脏数据
残缺数据:缺少属性值,缺少某些属性,或者仅包含聚集类数据。
噪声数据:可能出现的相对于真实值的偏差或错误,主要包括:错误数据、假数据、异常数据。
冗余数据:既包括重复的数据,也包括对分析处理的问题无关的数据。
当元组的某个属性残缺时,忽略整个元组
弊端:采用忽略元组的方法,意味着不能使用该元组的剩余属性值,而这些剩余属性值很可能是分析问题所必须的。除非元组有多个属性残缺,否则该方法不是很有效。当某个属性有很多元组缺失时,它的性能特别差。
处理残缺数据
通过人工填写或者设立某一规则确定残缺值的填写内容
仅适用于数据量小且缺失值少的情况,当数据量很大、缺失很多值时,该方法可能行不通。需要注意的是,在某些情况下,缺失值并不意味数据有错误。
可以使用常量、属性均值、类似属性均值、推测缺失值等方法确定缺失值并填写。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值