大数据挖掘
大数据的详细基础内容
爱冒险的梦啊
在校大学生,菜鸡一个,写的东西都是我们上课讲的或者自己在b站上学的,来当作笔记的,喜欢的可以关注下,希望有大佬看出错误及时指出,感谢各位大佬
展开
-
大数据挖掘分析与应用(分着写了,更条理些)
一 大数据概论众所周知。大数据技术在如今社会应用越来越广泛,如百度搜索的东西,给你推荐你所搜索的东西,如淘宝你平时的浏览的东西,淘宝自动会推给你各种你所浏览的东西。科学数据,金融数据,零售数据,社交网络数据,交通数据,物联网数据,政务大数据,医疗大数据等等等等。当前处于第二阶段大数据基本概念之大数据定义(4V特征)4V包括四个层面:数据量大(volume)数据类型繁多(variet...原创 2020-02-21 12:01:15 · 621 阅读 · 0 评论 -
大数据挖掘分析与应用 (九) HBase
一 HBase介绍及应用HBase的特点:1.容量大 HBase单表可以有百亿行、百亿列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性2.面向列 列式存储其数据在表中是按照某列存储的,这样在查询中只需要少数几个字段的时候,能大大减少读取的数据量。HBase是面向列的存储和权限控制,并支持独立检索3.多版本 HBase每-一个列的数据存储有多 个版本。4.稀疏性 ...原创 2020-04-23 23:28:16 · 298 阅读 · 0 评论 -
大数据挖掘分析与应用 (八) hadoop项目实战-学习网站的用户日志分析
实战项目:学习网站的用户日志分析日志分析能做什么:1.推荐 2. 投放广告引流 3.统计 TOP N 4.预测数据处理主要是两个:离线处理和在线处理 采集过来的日志:1.数据不完整,不可用(脏数据)用户行为日志分析的意义:1.日志是网站的眼睛(引流,用户群体,网站的亮点)2.日志是网站的神经(网页的布局非常重要,导航是否清晰)3.日志是网站的大脑(统计最受欢迎的课程,每...原创 2020-04-14 23:03:21 · 520 阅读 · 0 评论 -
大数据挖掘分析与应用 (七) MapReduce操作
MapReduce框架一 MapReduce概述优点:1.海量数据离线处理 2.易开发 3.易运行缺点:实时流计算MapReduce计算框架,基于磁盘(硬盘)IO输入输出我从磁盘上读取数据到内存中,计算,得出结果放到磁盘spark计算框架 ,基于内存的(内存条) 很短的时间内,数据是直接到内存的,计算,结果返回MapReduce编程之工作流程:1.将作业拆分为Map阶段和Red...原创 2020-03-26 21:53:38 · 585 阅读 · 0 评论 -
大数据挖掘分析与应用 (六) YARN资源调度框架
Hadoop的三个核心:Mapreduce HDFS Yarn一 Yarn的产生背景一 Mapreduce1.x存在的问题:1.单节点故障2.节点压力大不易扩展3.支持框架单一,无法运行spark框架,storm框架等(client 客户 提交作业 jobtracker资源管理和作业调度 主节点 tasktracker )二 资源利用低,运维成本高,资源无法共享不管...原创 2020-03-19 23:06:43 · 137 阅读 · 0 评论 -
大数据挖掘分析与应用 (五) HDFS操作
一 启动hdfs:在sbin目录下./start-dfs.sh,然后jps检测。二 HDFS的shell命令首先追加hadoop环境变量重启使之生效原创 2020-03-13 15:47:42 · 176 阅读 · 0 评论 -
大数据挖掘分析与应用 (四) HDFS环境搭建
四 HDFS环境搭建1.jdk的安装(装java)检查自带jdk,有就卸载 找jdk:rpm -qa|grep java切换命令 :su -root删除jdk:rpm -e --nodeps 名字安装jdk解压: tar -zxvf jdk名字 ~C 解压的位置配置环境变量:vim ~/.bash_profile 配置完重启这个文件使配置文件生效:sour...原创 2020-03-12 22:11:23 · 172 阅读 · 0 评论 -
大数据挖掘分析与应用(三)初始HDFS
三 HDFS1.设计目标非常大的分布式文件系统,运行在普通廉价的硬件上,易扩展,为用户提供性能不错的文件存储服务2.HDFS架构3.副本存放策略4.HDFS环境搭建*注:虚拟机中快照是当前虚拟机的状态复制,当操作不当时可以回退。...原创 2020-03-12 22:10:06 · 94 阅读 · 0 评论 -
大数据挖掘分析与应用(二)初始hadoop
二 初识HadoopHadoop概述开源的Hadoop可以搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务分布式集群:多台计算机构成主节点就是管理从节点位置的计算机(图书管理员)心跳机制:Hadoop三大核心组件:HDFS(分布式文件系统) YARN(资源调度系统)MapReduce(分布式计算框架)HDFS可以将数据多副本存储,这样的好处1.如果一台机器上...原创 2020-03-12 22:09:08 · 137 阅读 · 0 评论 -
大数据挖掘分析与应用(一)大数据概论
一 大数据概论众所周知。大数据技术在如今社会应用越来越广泛,如百度搜索的东西,给你推荐你所搜索的东西,如淘宝你平时的浏览的东西,淘宝自动会推给你各种你所浏览的东西。科学数据,金融数据,零售数据,社交网络数据,交通数据,物联网数据,政务大数据,医疗大数据等等等等。当前处于第二阶段大数据基本概念之大数据定义(4V特征)4V包括四个层面:数据量大(volume)数据类型繁多(variet...原创 2020-03-12 22:07:07 · 338 阅读 · 0 评论