wjn19921104-CSDN博客

转载 Scala学习笔记——主构造器、辅助构造器、私有构造器

Scala学习笔记——主构造器、辅助构造器、私有构造器本篇为Scala学习笔记，欢迎转载，请表明出处：http://blog.csdn.net/Captain72/article/details/78855373辅助构造器主构造器私有构造器辅助构造器(Auxiliary Constructor)1. 辅助构造器的名称为this2. 每个辅助构造器都必须以一个对先前已定义的其他辅助构造器或主构造器...

2018-06-28 16:49:52 544

转载 cookie与session的总结简介

1、cookie的作用：我们在浏览器中，经常涉及到数据的交换，比如你登录邮箱，登录一个页面。我们经常会在此时设置30天内记住我，或者自动登录选项。那么它们是怎么记录信息的呢，答案就是今天的主角cookie了，Cookie是由HTTP服务器设置的，保存在浏览器中，但HTTP协议是一种无状态协议，在数据交换完毕后，服务器端和客户端的链接就会关闭，每次交换数据都需要建立新的链接。就像我们去超市买东西，没...

2018-06-27 20:24:05 372

转载 scala 的getOrElse

今天做项目的时候被scala的getOrElse的返回类型坑了很久，特地记录如下：对于scala的getOrElse这个方法，其函数签名如下/* * Returns the option's value if the option is nonempty, otherwise* return the result of evaluating default. * @param default...

2018-06-27 17:20:13 1903

转载 parquet简单介绍与总结

==> 什么是parquet Parquet 是列式存储的一种文件类型==> 官网描述： Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data proc...

2018-06-26 20:30:34 15726

转载 java虚拟机内存模型垃圾回收算法内存泄漏及解决 jvm性能调优

一、JVM内存模型及垃圾收集算法 1.根据Java虚拟机规范，JVM将内存划分为：· New（年轻代）· Tenured（年老代）· 永久代（Perm）其中New和Tenured属于堆内存，堆内存会从JVM启动参数（-Xmx:3G）指定的内存中分配，Perm不属于堆内存，有虚拟机直接分配，但可以通过-XX:PermSize -XX:MaxPermSize 等参数调整其大小。 · 年轻代（New...

2018-06-20 11:36:29 243

转载 HDFS数据块的详解

HDFS数据块：与一般文件系统一样，HDFS也有块（block）的概念，HDFS上的文件也被划分为块大小的多个分块作为独立的存储单元。与通常的磁盘文件系统不同的是：HDFS中小于一个块大小的文件不会占据整个块的空间（当一个1MB的文件存储在一个128MB的块中时，文件只使用1MB的磁盘空间，而不是128MB）设置数据块的好处：（1）一个文件的大小可以大于集群任意节点磁盘的容量（2）容易对数据进行备...

2018-06-20 10:27:31 8738 1

转载【Java集合篇之Map】HashMap、HashTable、TreeMap、LinkedHashMap的区别以及应用场景

今天我向大家介绍Map接口中常用的四个集合类，先看看这几种实现类的类结构：[java] view plain copypublic class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable [java] view plain cop...

2018-06-19 20:24:10 326

原创 flume自定义拦截器

flume自定义拦截器1. 背景介绍Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume有各种自带的拦截器，比...

2018-06-19 20:20:55 585

转载 Shell快速入门

Shell快速入门教程1. Shell程序1.1 基本概念l 以文件的形式批量的存放linux 的命令集合。可以被shell解释执行，这种文件就是shell脚本程序。l Shell程序通常由linux命令，shell命令，控制语句以及注释语句构成。l Shell脚本是纯文本文件，可以由任何文本编辑器编写，shell文件通常是以 .sh 为文件后缀。.bash 结尾的 Shell脚本就是可执行命...

2018-06-19 20:17:13 617

原创 Crontab--定时器

Crontab--定时器要么就是脚本+Crontab 30 0 * * * bash /home/hadoop/beicai1609/auto_shell/datapreament/nohup_run_data_pretreament.sh crond 是 linux 下用来周期性的执行某种任务或等待处理某些事件的一个守护进程，与 windows 下的计划任务类似.crontab 文件的含义：用户...

2018-06-19 20:14:37 233

原创 spark的执行流程

spark的执行流程:spark的集群：master： 1/管理集群，start-all.sh，启动集群，让worker去master 发心跳，上报自己状态，告诉master自己有多少资源（cpu，内存） 2/接受driver的注册。你的程application运行之后，会在driver端，向master进行注册。 3/资源调度，spark程序可以同时的运行很多个application，每...

2018-06-19 20:02:54 560

转载 Spark性能优化指南——高级篇

Spark性能优化指南——高级篇前言继基础篇 (http://tech.meituan.com/spark-tuning-basic.html)讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题...

2018-06-19 19:58:40 398

转载 Spark性能优化指南——基础篇

Spark性能优化指南——基础篇在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。 Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），初开始尝试使用Spark的原因很简单，主要就...

2018-06-19 19:55:10 212

转载 Spark并行度设置总结

Spark性能调优之合理设置并行度1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！当分配完所能分配的最大资源了，然后对应资源去调节程序的并行度，如果并行度没有与资源相匹配，那么导致你分配下去的资源都浪费掉了。同时并行运行，还可以让每个task要处理的数量变少（很简单的原理。合理设置并行...

2018-06-19 19:52:51 1374

转载数据采集与埋点简介之代码埋点、可视化埋点与无痕埋点

数据采集与埋点简介之代码埋点、可视化埋点与无痕埋点博主做移动手机系统中的数据采集与埋点也有近两年，那段时间内一方面是集中在具体的开发和问题细节处理，另外一方面则是在把采集系统适配到不同的平台手机、平板、tv、车载的过程中，有Android和C++两个版本。有一天见到了“神策数据”的这篇博文，发现总结得太好了，有点相见恨晚的感觉。这篇文章里面阐述了一下数据采集的一些基本概念，介绍了一下代码埋点、可...

2018-05-31 17:00:10 5394

转载 spark中Yarn-Client Yarn-Cluster区别

摘要在Spark中，有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上，通常Yarn-cluster适用于生产环境，而Yarn-Cluster更适用于交互，调试模式，以下是它们的区别 Spark插拨式资源管理Spark支持Yarn,Mesos,Standalone三种集群部署模式，它们的共同点：Master服务(Yarn ResourceManager,Mesos ma...

2018-05-10 15:37:18 253

原创 spark的容错，检查点，共享变量的概念浓缩总结

一、容错Spark选择记录更新的方式。但是，如果更新粒度太细太多，那么记录更新成本也不低。因此，RDD只支持粗粒度转换，即只记录单个块上执行的单个操作，然后将创建RDD的一系列变换序列（每个RDD都包含了他是如何由其他RDD变换过来的以及如何重建某一块数据的信息。因此RDD的容错机制又称“血统(Lineage)”容错）记录下来，以便恢复丢失的分区。二、CheckpointCheckpoint算子来...

2018-05-10 15:33:06 303

转载 8种金典排序算法

排序(Sorting) 是计算机程序设计中的一种重要操作，它的功能是将一个数据元素(或记录)的任意序列，重新排列成一个关键字有序的序列。我整理了以前自己所写的一些排序算法结合网上的一些资料，共介绍8种常用的排序算法，希望对大家能有所帮助。八种排序算法分别是： 1.冒泡排序； 2.选择排序； 3.插入排序； 4.快速排序； 5.归并排序； 6.希尔排序； 7.二叉排序； 8.计数排序；其中快排尤为...

2018-05-09 16:00:49 237

原创 spark实现wordcount(java,scala版)

scala版object WordCount_Scala_test1 { def main(args: Array[String]) { new SparkContext(new SparkConf().setMaster("local").setAppName("WordCount_Scala_test")) .textFile("D:\\1.txt").flatMap(...

2018-05-09 15:57:03 182

原创 spark二次排序java版

public class SecondSort_java { public static void main(String[] args){ SparkConf conf = new SparkConf(). setMaster("local"). setAppName("SecondSort_java");...

2018-05-09 15:53:45 226

原创 spark实现三次排序scala版

package testimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.api.java.JavaSparkContextimport org.apache.spark.rdd.RDD/** * 按照输入数据的第一列和第二列的指定规则排序 * 第一列正序第二列倒序 * 步骤 ...

2018-05-09 15:49:07 457

原创 spark实现二次排序java版

package test08;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import or...

2018-05-09 15:46:24 164

转载 spark的persist和cache的缓存级别的学习总结

今天看Spark源码的时候看到了persist方法与cache方法，这里就说明一下两者的区别，也解决了自己之前的疑惑。cache方法Spark2.11关于cache方法的源码是这样的： /** * Persist this RDD with the default storage level (`MEMORY_ONLY`). * 缓存RDD，缓存级别为仅在内存中 * 这里的cac...

2018-05-09 08:03:13 1484

原创 scala代码测试时间的方法

def main(args: Array[String]) { val startTime: Long = System.currentTimeMillis 中间代码 val endTime: Long = System.currentTimeMillis System.out.println("程序运行时间： " + (endTime - startTime) + "ms")}...

2018-05-09 08:02:54 1840

原创 spark中持久化和容错checkpoint的区别

他们的目的不同1， checkpoint(容错)是考虑安全性，RDD 可以使用 persist() 方法或 cache() 方法进行持久化。数据将会在第一次 action 操作时进行计算，并缓存在节点的内存中。Spark 的缓存具有容错机制，如果一个缓存的 RDD 的某个分区丢失了，Spark 将按照原来的计算过程，自动重新计算并进行缓存。2，持久化是为高效性持久化到磁盘、已序列化的 Java 对...

2018-05-09 08:02:34 844

转载 Java普通代码块，构造代码块，静态代码块区别，执行顺序的代码实例

除了说普通代码块，静态代码块，构造代码块的执行顺序外，还有静态方法，静态变量等，都放在一起的话，这个执行顺序，怎么确定。我就实际弄个代码，看下执行顺序。[java] view plain copypublic class Line { static { System.out.println("静态代码块执行：loading line"); } p...

2018-05-08 08:12:48 120

转载 IntelliJ IDEA 如何重命名变量、文件、文件夹。--（说高级点就是【重构】）

IntelliJ IDEA使用教程（总目录篇）我表示，我在刚刚使用这个编辑器的时候，还真不知道怎么去重命名一个变量，重命名一个文件，或者一个文件夹。理论上讲，你要是改动一个地方，那么，其他所有引用的地方，应该跟着都给自动的改了的。不然，你一个个的改，要是引用的地方多了去了，那不改死你啊。所以，这肯定有个方便快捷的地方来实现这个功能的。说这么多，也就一个快捷键的事。（有兄台表示：我这个是eclip...

2018-05-08 08:12:37 31691 6

转载 IntelliJ IDEA 下的svn配置及使用的非常详细的图文总结

IntelliJ IDEA使用教程（总目录篇）首先，使用的时候，自己得先在电脑上安装个小乌龟。也就是svn啦。第一步安装小乌龟。如下：具体安装好像没什么具体要求，一路next，就好。如上图箭头所示，在安装 TortoiseSVN 的时候，默认 command line client tools，是不安装的，这里建议勾选上。这个我不确定我当时选没选，不过呢，你给安装上，也是没问题的。把上面的勾选取...

2018-05-08 08:12:09 325

转载 IntelliJ IDEA中Push failed: Failed with error: unable to access xx:Unknown SSL protocol error in

Push failed: Failed with error: unable to access 'https://github.com/cmshome/HelloWorld.git/': Unknown SSL protocol error in connection to github.com:1080Push failed: Failed with error: unable to acce...

2018-05-08 08:11:47 3528

转载 jvm系列(二):JVM内存结构

所有的Java开发人员可能会遇到这样的困惑？我该为堆内存设置多大空间呢？OutOfMemoryError的异常到底涉及到运行时数据的哪块区域？该怎么解决呢？其实如果你经常解决服务器性能问题，那么这些问题就会变的非常常见，了解JVM内存也是为了服务器出现性能问题的时候可以快速的了解那块的内存区域出现问题，以便于快速的解决生产故障。先看一张图，这张图能很清晰的说明JVM内存结构布局。Java的内存结构...

2018-05-08 08:11:27 104

转载 Intellij IDEA 2017 debug断点调试技巧与总结详解篇

在调试代码的时候，你的项目得debug模式启动，也就是点那个绿色的甲虫启动服务器，然后，就可以在代码里面断点调试啦。下面不要在意，这个快捷键具体是啥，因为，这个keymap是可以自己配置的，有的人keymap是mac版的，有的是Windows版的。我的就是Windows，而且修改keymap为eclipse的keymap，因为我算是eclipse转过来的吧。下面直接看图，详细解释，每一个按钮（按钮...

2018-05-08 08:10:51 1491

转载 pom.xml配置文件中所有标签及作用简单描述

我转载的是关于pom.xml文件中会使用到的基本上所有的标签以及标签的作用简单描述。可能我们自己的项目所使用到的标签总数量不及此文的一半。我转载仅为方便你我他学习之用，众喷子们，还请指下留情，轻喷。因为此文只是简单的介绍下所有的标签，以及标签的作用。具体我也没有全部用到过。至于涉及到maven的依赖，继承，聚合等问题，我会在另外总结。[html] view plain copy<projec...

2018-05-08 08:10:39 8585 2

转载以太网协议|MAC地址|IP协议|子网掩码|ARP协议|UDP协议|TCP协议|静态IP地址|动态IP地址|DHCP协议|网关|DNS协议等一串互联网协议名称一站式解读

一、概述1.1 五层模型互联网的实现，分成好几层。每一层都有自己的功能，就像建筑物一样，每一层都靠下一层支持。用户接触到的，只是最上面的一层，根本没有感觉到下面的层。要理解互联网，必须从最下层开始，自下而上理解每一层的功能。如何分层有不同的模型，有的模型分七层，有的分四层。我觉得，把互联网分成五层，比较容易解释。如上图所示，最底下的一层叫做"实体层"（Physical Layer），最上面的一层叫...

2018-05-08 08:09:43 491

转载 IntelliJ IDEA使用教程（总目录篇）

IntelliJ IDEA使用教程（总目录篇）硬件要求IntelliJ IDEA 的硬件要求安装包云盘分享IntelliJ IDEA 15，16 win 7 64位安装包以及注册码百度云盘(最新链接在文章底部评论里)注册与激活（建议下载安装专业版）IntelliJ IDEA(或者JetBrains PyCharm)中弹出“IntelliJ IDEA License Activation”时怎么...

2018-05-08 08:09:17 261

转载 Java基础知识回顾之----- 集合List、Map和Set

前言在上一篇中回顾了Java的三大特性：封装、继承和多态。本篇则来介绍下集合。集合介绍我们在进行Java程序开发的时候，除了最常用的基础数据类型和String对象外，也经常会用到集合相关类。集合类存放的都是对象的引用，而非对象本身，出于表达上的便利，我们称集合中的对象就是指集合中对象的引用。集合类型主要有3种：List、Set、和Map。它们之间的关系可用下图来表示:注:Map不是collecti...

2018-05-08 08:08:50 130

原创 spark版wordcount

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object test { def main(args: Array[String]) { val conf:SparkConf=new SparkConf().setAppName("test").setMaster("...

2018-05-07 20:11:09 139

原创 spark算子实现词频统计（java版和scala版）

//spark实现本地文件读取并用reduce进行聚合package day04import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Test04 { def main(args: Array[String]) { val conf: SparkConf = ...

2018-05-07 20:05:38 2079

原创用JAVA简单实现Spark转换算子实例（reduceByKey,sortByKey,join,cogroup）

package day05;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Function2;...

2018-05-07 19:53:02 478

原创 SPARK转换算子简单的实现示例（map,filter,flatmap,groupByKey）

package day05import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}class MyTransformation_scala { //使用map对集合中的每一个元素乘 2 def myMap(sc: SparkContext): Unit ={ val a...

2018-05-07 19:47:09 682

原创 spark转换算子求交集SCALA实现（insertsection）

package day06import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject MyTransformation_scala_3 { def myInsertsection(sc: SparkContext): String = { val RDD1 = sc...

2018-05-07 19:42:52 397

空空如也

空空如也