大数据离线
思故乡
这个作者很懒,什么都没留下…
展开
-
大数据离线阶段--数据获取
大数据离线阶段 -----数据获取原理数据分析1. 数据分析定义数据分析离不开数据,计量和记录一起促成了数据的诞生。伴随着数据记录的发展(尤其是技术),人类受益也越来越多,计算机出现带来的数字测量,更加大大的提高了数据化的效率。人们的重点也逐渐移向了记录下来的庞大数据,对这些数据进行研究、分析,以期获取更大的利益。数据分析是指用适当的统计分析方法对收集来的数据进行分析,将它们加以汇总和理解...原创 2019-02-15 20:15:01 · 3036 阅读 · 0 评论 -
js埋点技术入门解析,服务器安装
一般在企业种我们都会在html页面设置js埋点代码、1、js写死在页面与页面耦合性太强不利于维护,不利于后续维护,如何解耦合?将埋点代码写在单独文件、 <script type=text/javascript src="xxx/xxx.js"> 指向自己站点的相对引入 <script type=text/javascript src="www.xxx.com/...原创 2019-02-22 21:22:35 · 1946 阅读 · 0 评论 -
hadoop离线(Hadoop&HDFS)
hadoop离线(Hadoop&HDFS)hadoop狭义hadoop apache 软件 java语言 是大数据的处理平台HDFS(hadoop分布式文件系统):大数据的分布式存储MapReduce(分布式计算框架):大数据分布式处理计算YARN:集群资源(RAM CPU)管理任务调度广义hadoop hadoop生态体系 生态圈hadoop作为...原创 2019-02-23 11:26:53 · 496 阅读 · 0 评论 -
hdfs原理详解
hdfs概述namenode管理了整个文件系统的元数据 (metadata)管理众多datanode对外提供服务的唯一入口rpc端口:9000 使用文件系统的端口 hdfs://node-1:9000http端口:50070 hdfs webui页面的端口 查看端口 http://node-1:50070datanode负责具体数据块的存储定时需要向nn进行通信汇报...原创 2019-02-23 11:46:24 · 206 阅读 · 0 评论 -
mr执行原理
mapreduce思想 先分再合 分而治之map:负责分,所谓的分指的是把大的复杂的任务划分成小的任务,然后并行处理提高效率(如果任务不可以拆分或者任务内部存在着依赖关系 这样不适合分而至之)reduce:负责合 ,所谓的合指的是把上步分成的小任务结果聚合成最终的结果两步加起来就是mapreduce思想的体现。hadoop mapreduce 设计构思如何解决大数据的...原创 2019-02-23 15:39:20 · 1147 阅读 · 0 评论 -
flum执行原理及测试案例&&串联(负载均衡)
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件数据采集数据从无到有的过程数据搬运传输的过程flume是一个日志采集、聚合、汇总传输的软件。数据搬运的过程。flume具有三个核心组件source:对接各个不同种类的数据源sink:对接各个不同数据存放的目的地(下沉地)channel:中间用于临时缓存数据的以上三个组件...原创 2019-02-23 17:22:23 · 506 阅读 · 0 评论 -
flum静态拦截器
现在要求:把 A、B 机器中的 access.log、nginx.log、web.log 采集汇总到 C 机器上然后统一收集到 hdfs 中。但是在 hdfs 中要求的目录为:/source/logs/access/20190101/**/source/logs/nginx/20190101/**/source/logs/web/20190101/**① 在服务器 A 和服务器 B...原创 2019-02-23 17:53:36 · 293 阅读 · 0 评论 -
数据仓库基础--ETL原理及作用
全量数据、增量数据全量数据指的是全部数据增加数据指的是某个时间段内新增加的数据什么叫做好的数据?数据跟分析需求直接的关联性 在满足相关的前提下 数据当然越多越好。何为数据不可更新?不可更改更多指的是数据之间的规律不可更改。1.2k-----&gt;1200元0.2w-----&gt;2000元数仓4大特性面向主题:主题是数据的综合体 是一个抽象的概念集成性:数仓的数据需要...原创 2019-02-23 22:05:35 · 1808 阅读 · 1 评论