java
文章平均质量分 86
一枚老T
这个作者很懒,什么都没留下…
展开
-
SFTP文件如何统计行数
想写个数据监测的工具,监测数据的流转过程是否有丢失的情况,有个数据来源是SFTP上的文件,需要统计他的文件个数和每个文件下的行数。用java自带的java.IO.工具试了一下不行。数据流是空的。搞了老半天才找到问题,并解决掉。在此给大家分享一下。可能我的视线流程复杂了。首先创建并初始化sftp对象。这里我给封装了个工具:public class SftpUtil { private FTPSClient ftp; private String ftpHost; priv原创 2020-10-22 11:58:09 · 2882 阅读 · 0 评论 -
(九)spark on yarn
YARN是一种统一资源管理机制,在其上面可以运行多套计算框架。目前的大数据技术世界,大多数公司除了使用Spark来进行数据计算,由于历史原因或者单方面业务处理的性能考虑而使用着其他的计算框架,比如MapReduce、Storm等计算框架。Spark基于此种情况开发了Spark on YARN的运行模式,由于借助了YARN良好的弹性资源管理机制,不仅部署Application更加方便,...原创 2019-10-16 17:25:02 · 670 阅读 · 1 评论 -
(八)spark学习之数据倾斜
为什么要处理数据倾斜问题什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜原因在Spark中,同一个Stage的不同Partition可以并...原创 2019-07-28 16:50:20 · 274 阅读 · 0 评论 -
(七)Spark实战之 wordCount
一,代码实现之Scala命令行实现 $scala>val rdd1 = sc.textFile("/home/centos/test.txt") //获取文本文件,按行切分,以行为单位的String $scala>val rdd2 = rdd1.flatMap(line=>line.split(" ")) // 压扁打散行数据,获取所有行的所有单...原创 2019-07-20 00:37:19 · 234 阅读 · 0 评论 -
(六) Spark的Transformation和action介绍
RDD支持两种类型的操作:Transformation(从现有的数据集创建新的数据集)和action(在对数据集运行计算后将值返回给驱动程序)。例如,map是一种Transformation,它通过一个函数来传递每个数据集元素,并返回一个表示结果的新RDD。另一方面,reduce是一个action,它使用某个函数聚合RDD的所有元素,并将最终结果返回给driver驱动程序(尽管还有一...原创 2019-07-11 12:13:01 · 693 阅读 · 0 评论 -
(三)Spark core之RDD
1.什么是RDD?RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,RDD是一个只读的有属性的数据集。属性用来描述当前数据集的状态,数据集是由数据的分区(partition)组成,并(由block)映射成真实数据。RDD属性包括名称、分区类型、父RDD指针、数据本地化、数据依赖关系等。RDD是理解Apache Spark 工作...原创 2019-07-04 11:38:57 · 190 阅读 · 0 评论 -
(二)spark HA安装部署
一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/回到顶部二、安装基础1、Java8...原创 2019-06-05 17:18:23 · 457 阅读 · 0 评论 -
(一)初识Spark
1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计...原创 2019-07-04 09:59:39 · 197 阅读 · 0 评论 -
Elasticsearch的增删改查操作
检索文档GET请求GET请求返回的响应内容包括 {"found": true} 。这意味着文档已经找到。如果我们请求一个不存在的文档,依旧会得到一个JSON,不过 found 值变成了 false 。通常, GET 请求将返回文档的全部,存储在 _source 参数中。但是可能你感兴趣的字段只是 title 。请求个别字段可以使用 _source 参数。多个字段可以使用逗号分隔:(GE...原创 2019-03-28 10:11:39 · 1525 阅读 · 0 评论 -
ElasticSearch常见名词解释
文档元数据一个文档不只有数据。它还包含了 元数据(metadata)—— 关于文档的信息。三个必须的元数据节点是: 节点 说明 index 文档存储的地方 type 文档代表的对象的类型 id 文档的唯一标识 索引(index...原创 2019-03-28 10:10:03 · 992 阅读 · 0 评论 -
ElasticSearch内部工作方式和集群健康
一个 节点(node)就是一个Elasticsearch实例,而一个 集群(cluster)由一个或多个节点组成,它们具有相同的 cluster.name ,它们协同工作,分享数据和负载。当加入新的节点或者删除一个节点时,集群就会感知到并平衡数据。集群中一个节点会被选举为 主节点(master),它将临时管理集群级别的一些变更,例如新建或删除索引、增加或移除节点等。主节点不参与文档级别的变更或...原创 2019-03-28 10:07:57 · 166 阅读 · 0 评论 -
利用Hbase解决HDFS小文件合并
自己开发心得,希望能够帮助大家!相关源码:http://download.csdn.net/download/zhtzh312/9259615原创 2015-11-11 08:49:58 · 6057 阅读 · 0 评论 -
JS怎么刷新当前页面
JS怎么刷新当前页面reload 方法,该方法强迫浏览器刷新当前页面。语法:location.reload([bForceGet]) 参数: bForceGet, 可选参数, 默认为 false,从客户端缓存里取当前页。true, 则以 GET 方式,从服务端取最新的页面, 相当于客户端点击 F5("刷新")replace 方法,该方法通过指定URL替换当前缓存在历史里原创 2015-06-30 17:03:25 · 347 阅读 · 0 评论