向大数据进军~每天记
文章平均质量分 93
高辉
我一无所有,又万事具备,我向现实挺进,也向梦境追寻。
展开
-
idea-spark编程worldcount,hadoop同spark集成,搭建spark集群(forty-seven day third)
1.创建新模块并添加maven依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-insta...原创 2019-05-12 21:04:46 · 219 阅读 · 0 评论 -
Storm核心概念,组件,架构(thirty-six day)
ApacheStorm是一个分布式实时大数据处理系统。Storm被设计成用一种容错的水平扩展方法处理大量数据。它是一个具有最高摄取率的流式数据框架。虽然Storm是无状态的,但它通过ApacheZooKeeper管理分布式环境和集群状态。它很简单,可以对实时数据并行执行各种操作。ApacheStorm仍然是实时数据分析领域的领导者。Storm易于设置、操作,并确保至少通过TopDlogy处理每个...原创 2019-05-01 22:39:07 · 264 阅读 · 0 评论 -
Kafka学习(thirty-five day)
JMS: java message servicep2p:一对一模式 point to point peer to peerp-s:一对多模式 publish subscribekafka: p2p + ps = 消费者组模式中间件: 不含有业务的技术组件kafka是什么? //实时数据处理===...原创 2019-04-30 20:40:49 · 199 阅读 · 0 评论 -
scala实现单词统计(thirty-nine day)
1、编写scala代码(使用类型推断) import org.apache.spark.{SparkConf, SparkContext} /** * scala实现单词统计 */ object WordcountScala { def main(args: Array[String...原创 2019-05-04 18:22:00 · 1171 阅读 · 0 评论 -
flume概念介绍及工作机制(twenty-nine day first )
先理解一下flume 数据采集业务系统产生的日志等需要分析的数据存在了HDFS上,或KAFKA上,或MYSQL里,这种各种的数据源里,然后分析以后将结果文件放到目标文件中。接着框架flume出现了,它定义了一个数据采集的流程,1、读数据,2、缓存数据,3、写数据为避免读数据和写数据的速度不匹配(写数据是恒定的,但业务系统因为各种原因产生数据有时候是不确定的,所以读数据是不确定的),所以...原创 2019-04-24 15:12:40 · 300 阅读 · 0 评论 -
Scala学习-函数和方法(thirty-three day)
接着上一篇学习scala:调用函数和方法 除了方法之外,Scala还提供函数。相比Java, 在Scala中使用数学函数(比如min或pow)更为简单:你不需 要从某个类调用它的静态方法。sqrt(2) 11 将产出1.4142135623730951pow(2, 4) // 将产出 16.0min(3,Pi)> // 将产出3.0这些数学函数足在scal...原创 2019-04-28 18:17:12 · 367 阅读 · 0 评论 -
Spark介绍,安装(thirty-eight day)
Spark介绍----------------- 快如闪电的通用分析引擎。 spark是快速通用计算引擎,支持语句java、scala、python、R。 spark内置模块spark-sql、mllib、streaming、graph。 [speed] Spark在批处理和流计算有着更高性能,使用了DAG(direct acycle graph...原创 2019-05-03 16:39:17 · 215 阅读 · 0 评论 -
Scala学习-常用集合/模式匹配和样例类/泛型/隐式转换(thirty-seven day)
Scala学习继续篇常用集合-------------- 1.list val list = List(1,2,3,4) list.head //1 list.tail //List(2,3,4) list.tail.tail.tail.tail//Nil...原创 2019-05-02 23:37:05 · 358 阅读 · 0 评论 -
Hbase运行原理(twenty-eight day second)
HBASE运行原理组件结构图1、MASTER职责管理HRegionServer,实现其负载均衡。管理和分配HRegion,比如在HRegion split时分配新的HRegion;在HRegionServer退出时迁移其负责的HRegion到其他HRegionServer上。Admin职能 创建、删除、修改Table的定义。实现DDL操作(namespace...转载 2019-04-23 18:17:41 · 207 阅读 · 0 评论 -
hive查询语法-数据类型-函数-综合(twenty-four day)
1、查询语法create table t_a(name string,numb int)row format delimitedfields terminated by ',';create table t_b(name string,nick string)row format delimitedfields terminated by ',';load data local...原创 2019-04-19 18:18:48 · 1358 阅读 · 0 评论 -
Scala入门,介绍常用类型,算术和操作符(thirty-two day)
Scala是一门以Java虚拟机( JVM )为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言。你可以使用Scala编写出更加精简的程序,同时充分利用并发的威力。由于Scala运行于JVM之上,因此它可以访问任何Java类库并且与Java框架进行互操作。Scala:java语言的脚本化,底层是java ,面向对象和函数 (直奔主题),直接写程序,直接运行即...原创 2019-04-27 22:41:15 · 229 阅读 · 0 评论 -
布隆过滤器(twenty-eight day first)
不同的数据结构有不同的适用场景和优缺点,你需要仔细权衡自己的需求之后妥善适用它们什么是布隆过滤器本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),布隆过滤器(BloomFilter)由一个很长的二进制向量和一系列抗碰撞的Hash函数组成, 可以用于快速判断一个元素是否在一个集合中。优点:空间仅由二进制向量决定,并且查询...原创 2019-04-23 14:19:33 · 311 阅读 · 0 评论 -
Hbase的java客户端操作-hbase命令行客户端操作(twenty-seven day second)
hbase命令行客户端操作建表:create 't_user_info','base_info','extra_info' 表名 列族名 列族名插入数据put 't_user_info','001','base_info:username','zhangsan'查询数据方式一:scan 扫描查询数据方式二:get ...原创 2019-04-22 20:11:58 · 343 阅读 · 0 评论 -
Scala学习-参数(thirty-four day)
//定义函数,参数数带有默认值 def decorate(prefix:String="{{{" , str:String , suffix:String="}}}") = { prefix + str + suffix } //带名参数 decorate(str = "hello" ) //变长参数 def add(x:In...原创 2019-04-29 11:40:53 · 201 阅读 · 0 评论 -
flume采集配置案例-安装 (twenty-nine day second)
使用flume解压apache-flume-1.6.0-bin.tar.gz然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)指定采集方案配置文件,在相应的节点上启动flume agent配置dir-hdfs.conf 【配置里面参数的后面不能再有注释,否则会...原创 2019-04-24 18:05:16 · 319 阅读 · 0 评论 -
快学scala下载[pdf] pdf转doc java提取pdf(forty day)
《快学scala》链接:https://pan.baidu.com/s/1T12_C-cVwfwwJQtbb6Cvdg提取码:teaj【注:pdf只有文字的话下面可以使用,《快学scala》转不了,可能是识别成图片了?反正我没成功,有大神会的话可以评论教一下小弟】1、java提取pdf输出import com.itextpdf.text.pdf.PdfDocument;i...原创 2019-05-05 19:29:05 · 632 阅读 · 0 评论 -
spark介绍,组件,安装,spark RDD,spark sql Spark SQL 数据帧(forty-seven day second)
Spark 介绍行业广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持可扩展,灵活,容错和成本有效的计算解决方案。这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度。Spark由Apache Software Foundation引入,用于加速Hadoop计算软件过程。对于一个普遍的...转载 2019-05-12 20:52:53 · 310 阅读 · 0 评论 -
Pig Latin 基础,Apache Pig 加载和存储数据(forty-seven day first)
Pig Latin 基础Pig Latin是用于使用Apache Pig分析Hadoop中数据的语言。在本章中,我们将讨论Pig Latin的基础知识,如Pig Latin语句,数据类型,通用运算符,关系运算符和Pig Latin UDF。Pig Latin - 数据模型如前面章节所讨论的,Pig的数据模型是完全嵌套的。Relation是Pig Latin数据模型的最外层结构。它是一个...转载 2019-05-12 20:21:17 · 978 阅读 · 0 评论 -
scala练习-两数之和
给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。object Solution { def twoSum(nums: Array[Int], target: Int): Array[Int] = { var map = Map[Int, Int]() for (i <- 0 until...原创 2019-05-16 19:44:57 · 945 阅读 · 0 评论 -
ELK(EasticSearch logstash Kainna)介绍,下载安装
ELK 日志收集、存储、可视化一套组件 1、批量分析 2、数据集关联 3、生成图标进行显示 4、报警ElasticSearch 易于部署, 竖直和水平可进行伸缩 API易于使用, 多与大多数编程/脚本语言都可以模块化 好的在线文档 免费logstash 类似f...原创 2019-05-21 17:52:56 · 537 阅读 · 0 评论 -
Apache Storm VS Hadoop(forty-six day)
Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。它很简单,您可以并行地对实时数据执行各种操作。Apache Storm继续成为实时数据分析的领导者。Storm易于设置和操作,并且它保证每个消息将通过拓扑至...转载 2019-05-11 21:44:26 · 188 阅读 · 0 评论 -
Apache pig安装,执行 ,pig命令,及运行脚本(forty-five day)
安装Apache Pig下载Apache Pig软件后(http://mirror.bit.edu.cn/apache/pig/),按照以下步骤将其安装在Linux环境中。步骤1在安装了Hadoop,Java和其他软件的安装目录的同一目录中创建一个名为Pig的目录。(在我们的教程中,我们在名为Hadoop的用户中创建了Pig目录)。$ mkdir Pig第2步提...转载 2019-05-10 18:28:41 · 1223 阅读 · 0 评论 -
flume实践(forty-two day)
flume的特点:flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Even...转载 2019-05-07 18:59:48 · 210 阅读 · 0 评论 -
整合kafka与flume,Flume读取Kafka数据写入Hdfs(forty-nine day)
整合kafka与flume读kafka中topic的消息发到hdfs,flume配置:注意:我不确定是不是必须要写成zookeeper的leader,我写成本机zookeeper的时候报一个错误,大概就是没找到zookooper,我换成leader的域名slave3就好了所以agent.sources.kafkaSource.zookeeperConnect=slave3:2181...原创 2019-05-14 18:27:41 · 841 阅读 · 0 评论 -
pig概述,pig架构,Pig Vs SQL Apache Pig与MapReduce Apache Pig VS Hive(forty-four day)
本来是要整合一下flume和kafka的,结果可能因为配置的问题没成功,等搞定了再写,先了解下pig什么是Apache Pig?Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与Hadoop一起使用;我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。要编写数据分析程序,Pig提...转载 2019-05-09 19:34:30 · 799 阅读 · 0 评论 -
spark集成hive spark sql编程(forty-eight day)
spark集成hive------------------------ 1.创建hive-site.xml软连接到spark/conf下 $>xcall.sh "ln -s /soft/hive/conf/hive-site.xml /soft/spark/conf/hive-site.xml" 2.mysql驱动程序复制到spark/jars ...原创 2019-05-13 19:55:17 · 434 阅读 · 0 评论 -
flume遇到的问题总结;spooldir与exec区别【GC overhead limit exceeded ;Java heap space】(forty-three day)
问题一:Exception in thread “PollableSourceRunner-SQLSource-sourceTest” java.lang.OutOfMemoryError: GC overhead limit exceeded同理:Java heap space解决:进入flume bin修改flume-ng文件:配置jvm参数JAVA_OPTS="-...原创 2019-05-08 18:28:36 · 709 阅读 · 0 评论 -
sqoop数据迁移工具概念及安装(thirty day )
概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等2.2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对in...原创 2019-04-25 18:31:34 · 190 阅读 · 0 评论 -
hive建库建表与数据导入,hql运行-hive内部表与外部表,分区表,数据导入导出(twenty-three day)
hive脚本化运行hql 大量的hive查询任务,如果用交互式shell来进行输入的话,显然效率及其低下,因此,生产中更多的是使用脚本化运行机制:该机制的核心点是:hive可以用一次性命令的方式来执行给定的hql语句[root@hdp20-04 ~]# hive -e "insert into table t_dest select * from t_src;"然后,进一步...原创 2019-04-18 16:00:01 · 627 阅读 · 0 评论 -
Sqoop命令 数据导入导出实操(thirty-one day second )
/** 将mysql的表导入 hdfs **/bin/sqoop import \--connect jdbc:mysql://hdp-04:3306/userdb \--username root \--password root \--target-dir \/sqooptest \--fields-terminated-by ',' \--table emp \--spl...原创 2019-04-26 16:19:25 · 184 阅读 · 0 评论 -
MapReduce的整体工作机制(seven day second)
MapReduce架构 Hadoop MapReduce采用Master/Slave(M/S)架构,如下图所示,主要包括以下组件:Client、JobTracker、TaskTracker和Task。1)Client 用户编写的MapReduce程序通过Client提交到JobTracker端;同时,用户可通过Client提供的一些接口查看作业运行状态。在Hadoop内部...转载 2019-04-02 11:12:50 · 433 阅读 · 0 评论 -
mapReduce共同好友统计(twelve day)
需求:统计那些人之间有共同好友,及好友是谁public class CommonFriendsOne { public static class CommonFriendsOneMapper extends Mapper<LongWritable, Text, Text, Text>{ Text k = new Text(); Text v = new Text(...原创 2019-04-07 21:00:04 · 327 阅读 · 0 评论 -
HDFS读数据流与写数据流(seven day first)
1.拓扑距离这里简单讲下hadoop的网络拓扑距离的计算在大数量的情景中,带宽是稀缺资源,如何充分利用带宽,完美的计算代价开销以及限制因素都太多。hadoop给出了这样的解决方案:计算两个节点间的间距,采用最近距离的节点进行操作,如果你对数据结构比较熟悉的话,可以看出这里是距离测量算法的一个实例。如果用数据结构表示的话,这里可以表示为tree,两个节点的距离计算就是寻找公共祖先...转载 2019-04-02 08:53:54 · 219 阅读 · 0 评论 -
NameNode元数据管理机制(six day second)
NameNode元数据管理机制:记录元数据如果是操作一个文件的话是很不方便的,因为这个里面的数据是经常要改动的(增删改查)为了方便地去修改这些数据,所以不用文件形式去存,而是放在内存里面(元数据放在内存里),在内存里可以用java对象来表示这些东西,java会设计一个对象,对象里面封装了一种数据结构---树,来表示目录结构,增删改查就很明显/分别。问题来了,如果宕调,数据会全部丢失,所...原创 2019-04-01 17:56:23 · 297 阅读 · 0 评论 -
mapreduce的内部核心工作机制Shuffle-maptask生成的数据传输给reducetask的过程(fifteen day)
seven day second学习了MapReduce的整体工作机制https://blog.csdn.net/ZJX103RLF/article/details/88965770经过做了几个mapreduce练习,今儿再看看内部的核心工作机制(先学难的再回顾基础):首先mapreduce是个分布式的,它的第一个工作进程叫maptask(真正的进程名字叫yarn child--&...原创 2019-04-10 20:18:25 · 2463 阅读 · 5 评论 -
HDFS版的WorldCount-编程 HDFS处理文件(six day first)
假如有a.txt b.txt c.txt 在hdfs的目录 /wordcount/input/ 中请写一个程序,来统计上述目录中的所有文件中的单词出现的次数,然后将统计结果输出到 hdfs的目录 /wordcount/output/res.txt 中还是先梳理一下逻辑:1、去hdfs中读文件 2、调用一个方法对所读文件进行业务处理 3、将这一行的处理逻辑放入一个缓存 ...原创 2019-04-01 15:02:22 · 211 阅读 · 0 评论 -
mapreduce倒排索引创建-切片 (eleven day)
需求:在大量的文本中分别取到某个词出现的次数,输出单词在每个文件中的总次数梳理逻辑:1、先写一个mr程序:统计出每个单词在每个文件中的总次数分析:map:会传key,value,content(inputsplit输入切片用于描述maptask处理的数据范围的切片信息)如果maptask读的是文件:划分范围应该用如下信息描述:文件路径,偏移量范围,如果maptask读的是数据...原创 2019-04-06 19:56:26 · 233 阅读 · 0 评论 -
mapreduce页面访问总次数的全局倒序排序-编程 (ten day)
先梳理逻辑:数据量大的话,在treemap里面会放不下,map产生的很多key-value数据,会发给reduce去聚合,key相同的会作为一组聚合(框架内部有排序机制,按key排序),1、先写一个mapreduce ,输出访问页面和访问它的总次数,产生一个结果文件,不过这个里面的顺序是按照页面来排序的2、再写一个mapReduce,用map去读上一个mapreduce产生的文件,...原创 2019-04-05 23:03:26 · 1256 阅读 · 2 评论 -
大数据概念+场景+HDFS工作机制(one day)
基本概念---->数据处理在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!处理海量数据的核心技术: 海量数据存储:分布式真正的分布式存储:一个文件系统存储文件,这个系统看似有目录,有一个统...原创 2019-03-27 18:29:08 · 240 阅读 · 0 评论 -
定期将采集的日志发到HDFS,采集完后备份,并定期删除 (five day)
首先写代码之前梳理一下流程:启动一个定时任务: 1、定时探测日志源目录 2、获取需要采集的文件 3、移动这些文件到一个待上传临时目录 4、遍历待上传目录中各文件,逐一传输到HDFS的目标路径,同时将传输完成的文件移动到备份目录启动一个定时任务: 探测备份目录中的备份数据,检查是否已超出最长备份时长,如果超出,则删除 2、规划各种路径(全...原创 2019-03-31 21:24:16 · 481 阅读 · 0 评论