- 博客(21)
- 资源 (19)
- 收藏
- 关注
原创 SFTP文件如何统计行数
想写个数据监测的工具,监测数据的流转过程是否有丢失的情况,有个数据来源是SFTP上的文件,需要统计他的文件个数和每个文件下的行数。用java自带的java.IO.工具试了一下不行。数据流是空的。搞了老半天才找到问题,并解决掉。在此给大家分享一下。可能我的视线流程复杂了。首先创建并初始化sftp对象。这里我给封装了个工具:public class SftpUtil { private FTPSClient ftp; private String ftpHost; priv
2020-10-22 11:58:09 2842
原创 (九)spark on yarn
YARN是一种统一资源管理机制,在其上面可以运行多套计算框架。目前的大数据技术世界,大多数公司除了使用Spark来进行数据计算,由于历史原因或者单方面业务处理的性能考虑而使用着其他的计算框架,比如MapReduce、Storm等计算框架。Spark基于此种情况开发了Spark on YARN的运行模式,由于借助了YARN良好的弹性资源管理机制,不仅部署Application更加方便,...
2019-10-16 17:25:02 649 1
原创 (八)spark学习之数据倾斜
为什么要处理数据倾斜问题什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜原因在Spark中,同一个Stage的不同Partition可以并...
2019-07-28 16:50:20 258
原创 (七)Spark实战之 wordCount
一,代码实现之Scala命令行实现 $scala>val rdd1 = sc.textFile("/home/centos/test.txt") //获取文本文件,按行切分,以行为单位的String $scala>val rdd2 = rdd1.flatMap(line=>line.split(" ")) // 压扁打散行数据,获取所有行的所有单...
2019-07-20 00:37:19 224
原创 (六) Spark的Transformation和action介绍
RDD支持两种类型的操作:Transformation(从现有的数据集创建新的数据集)和action(在对数据集运行计算后将值返回给驱动程序)。例如,map是一种Transformation,它通过一个函数来传递每个数据集元素,并返回一个表示结果的新RDD。另一方面,reduce是一个action,它使用某个函数聚合RDD的所有元素,并将最终结果返回给driver驱动程序(尽管还有一...
2019-07-11 12:13:01 677
原创 (五)Spark学习笔记 之 累加器(Accumulator)及常见问题分析
Accumulator简介Spark提供的Accumulator,主要用于多个节点对一个变量进行共享性的操作。Accumulator只提供了累加的功能。但是确给我们提供了多个task对一个变量并行操作的功能。但是task只能对Accumulator进行累加操作,不能读取它的值。只有Driver程序可以读取Accumulator的值。非常类似于在MR中的一个Counter计数器,主要用于统计...
2019-07-05 16:31:29 1405 1
原创 (四)spark之共享数据--广播变量
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。二、广播变量介绍比如数据库中一份公共配置表格,需要同步给各个节点进行查询。广播变量允许程序在每台机器上面缓存一个只读的变量,每台机器上的所有task共享这个只读变量。而不是每个任务保存一份拷贝。如果将变量声明为广播变量,那么只是每个executo...
2019-07-05 14:45:54 560
原创 (三)Spark core之RDD
1.什么是RDD?RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,RDD是一个只读的有属性的数据集。属性用来描述当前数据集的状态,数据集是由数据的分区(partition)组成,并(由block)映射成真实数据。RDD属性包括名称、分区类型、父RDD指针、数据本地化、数据依赖关系等。RDD是理解Apache Spark 工作...
2019-07-04 11:38:57 181
原创 (一)初识Spark
1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计...
2019-07-04 09:59:39 187
原创 (二)spark HA安装部署
一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/回到顶部二、安装基础1、Java8...
2019-06-05 17:18:23 444
原创 ElasticSearch索引管理
原创不易,转载请注明出处。谢谢!创建索引迄今为止,我们简单的通过添加一个文档的方式创建了一个索引。这个索引使用默认设置,新的属性通过动态映射添加到分类中。现在我们需要对这个过程有更多的控制:我们需要确保索引被创建在适当数量的分片上,在索引数据 之前 设置好分析器和类型映射。为了达到目标,我们需要手动创建索引,在请求中加入所有设置和类型映射,如下所示: PUT /my_inde...
2019-03-28 10:20:42 455
原创 ElasticSearch分布式搜索的执行方式
分布式搜索的执行方式我们知道,一个文档是由index,type,id的组合来确定唯一性的。这意味我们可以准确知道某个文档在集群中的哪个分片上。但由于不知道哪个文档会被匹配查询,所以搜索需要一个更复杂的模型,一个搜索不得不通过查询每一个我们感兴趣的索引的复制分片,来看是否含有任何匹配的文档。在找到所有匹配的文档只完成了搜索的一半,搜索的执行过程分为两个阶段。查询阶段和取回阶段。查询阶...
2019-03-28 10:18:38 337
原创 ElasticSearch的映射和分析
映射和分析映射(mapping)机制用于进行字段类型确认,将每个字段匹配为一种确定的数据类型( string , number , booleans , date 等)。分析(analysis)机制用于进行 全文文本(Full Text)的分词,以建立供搜索用的反向索引。让我们看看Elasticsearch在对 megacorp索引中的 employee类型进行 mapping后是如何...
2019-03-28 10:17:19 693
原创 ElasticSearch多索引和多类别搜索
通过限制搜索的不同索引或类型,我们可以在集群中跨 所有文档搜索。Elasticsearch转发搜索请求到集群中平行的主分片或每个分片的复制分片上,收集结果后选择顶部十个返回给我们。通常,我们可能想搜索一个或几个自定的索引或类型,我们能通过定义URL中的索引或类型达到这个目的,像这样:URL/_search 在所有索引的所有类型中搜索URL/megacorp/_search ...
2019-03-28 10:14:45 4018
原创 ElasticSearch分布式文档存储介绍
分布式文档存储文档如何被路由到分片的当你索引一个文档,他将会被索引到单独的分片,ElasticSearch是如何知道文档属于哪个分片的?事实上,ElasticSearch是根据一个简单的算法实现的: shard = hash(routing)%numOfPrimaryShards routing是一个任意字符串,默认是_id,但也可以自定义。routing被has...
2019-03-28 10:14:03 273
原创 Elasticsearch的增删改查操作
检索文档GET请求GET请求返回的响应内容包括 {"found": true} 。这意味着文档已经找到。如果我们请求一个不存在的文档,依旧会得到一个JSON,不过 found 值变成了 false 。通常, GET 请求将返回文档的全部,存储在 _source 参数中。但是可能你感兴趣的字段只是 title 。请求个别字段可以使用 _source 参数。多个字段可以使用逗号分隔:(GE...
2019-03-28 10:11:39 1509
原创 ElasticSearch常见名词解释
文档元数据一个文档不只有数据。它还包含了 元数据(metadata)—— 关于文档的信息。三个必须的元数据节点是: 节点 说明 index 文档存储的地方 type 文档代表的对象的类型 id 文档的唯一标识 索引(index...
2019-03-28 10:10:03 977
原创 ElasticSearch内部工作方式和集群健康
一个 节点(node)就是一个Elasticsearch实例,而一个 集群(cluster)由一个或多个节点组成,它们具有相同的 cluster.name ,它们协同工作,分享数据和负载。当加入新的节点或者删除一个节点时,集群就会感知到并平衡数据。集群中一个节点会被选举为 主节点(master),它将临时管理集群级别的一些变更,例如新建或删除索引、增加或移除节点等。主节点不参与文档级别的变更或...
2019-03-28 10:07:57 157
原创 利用Hbase解决HDFS小文件合并
自己开发心得,希望能够帮助大家!相关源码:http://download.csdn.net/download/zhtzh312/9259615
2015-11-11 08:49:58 6030
原创 JS怎么刷新当前页面
JS怎么刷新当前页面reload 方法,该方法强迫浏览器刷新当前页面。语法:location.reload([bForceGet]) 参数: bForceGet, 可选参数, 默认为 false,从客户端缓存里取当前页。true, 则以 GET 方式,从服务端取最新的页面, 相当于客户端点击 F5("刷新")replace 方法,该方法通过指定URL替换当前缓存在历史里
2015-06-30 17:03:25 339
java开发----oracle/mysq导入到hbase和hdfs的源码
2015-11-19
hbase合并小文件Demo项目包
2015-11-11
Spark高手之路-Spark SQL编程动手实战
2015-11-09
spark高手之路-spark架构设计与编程模型
2015-11-06
spark高手之路-内核揭秘
2015-11-06
shell脚本开发
2015-07-22
kettle操作手册和基本用法
2015-07-22
R语言实战和案例
2015-07-22
solr学习心得和总结笔记
2015-07-22
ajax+jquery
2015-07-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人