2017年05月_zone工作室

转载 sparkstreaming反压机制

因特殊业务场景，如大促、秒杀活动与突发热点事情等业务流量在短时间内剧增，形成巨大的流量毛刺，数据流入的速度远高于数据处理的速度，对流处理系统构成巨大的负载压力，如果不能正确处理，可能导致集群资源耗尽最终集群崩溃，因此有效的反压机制(backpressure)对保障流处理系统的稳定至关重要。Storm和Spark Streaming都提供了反压机制，实现各不相同对于开启了acker机制的

2017-05-31 18:58:26 5915

转载 yarn的cpu资源隔离

1、cpu子系统的介绍cpu子系统用于控制cgroup中所有进程可以使用的cpu时间片。Cpu子系统管理cpu资源的使用是通过调度器实现的。主要有两种调度器：CFS（completely fair scheduler）调度器：基于进程组的优先级或控制组的shares参数在控制组间按比例划分cpu时间。RT（real-time）调度器：用与实时进程，控制实时进程的cpu时

2017-05-31 18:01:31 2272

转载 streaming中partition里用线程池异步优化

点击hadoop123关注我哟☀最知名的Hadoop/Spark大数据技术分享基地，分享hadoop/spark技术内幕，hadoop/spark最新技术进展，hadoop/spark行业技术应用，发布hadoop/spark相关职位和求职信息，hadoop/spark技术交流聚会、讲座以及会议等。作者：徐鑫作者简介：毕业于清华大

2017-05-31 16:20:51 2347

转载 scala的apply

Scala 是构建在 JVM 上的静态类型的脚本语言，而脚本语言总是会有些约定来增强灵活性。灵活性可以让掌握了它的人如鱼得水，也会让初学者不知所措。比如说 Scala 为配合 DSL 在方法调用时有这么一条约定：在明确了方法调用的接收者的情况下，若方法只有一个参数时，调用的时候就可以省略点及括号。如 “0 to 2”，实际完整调用是 “0.to(2)”。但 “println(2)” 不

2017-05-30 18:18:45 361

转载 scala中的tuple1,2,3

通过下标_n取数据不多说了，下面是几个比较有意思的知识点知识点1、Tuple 和Function 和Producct一样最多只支持22个元素比如 (0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21) 这样是没问题的但是(0,1,2,3,4,5,6,7,8,9,10,11,12,13

2017-05-30 17:57:03 5596

转载 ansj的分词系统过滤词性

最近做nlp，需要词性，特地查了下保留下i下来汉语文本词性标注标记集# 1. 名词 (1个一类，7个二类，5个三类)名词分为以下子类：n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素nw 新词# 2.

2017-05-29 18:44:59 2871 1

转载字典树

参考博文：http://blog.csdn.net/v_july_v/article/details/6897097第一部分、Trie树1.1、什么是Trie树 Trie树，即字典树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串

2017-05-29 16:39:21 480

转载数据库连接池原理

谈谈数据库连接池的原理帅宏军这次我们

2017-05-29 15:45:29 492

转载 jedis基本操作

使用Java操作Redis需要jedis-2.1.0.jar，下载地址：http://files.cnblogs.com/liuling/jedis-2.1.0.jar.zip如果需要使用Redis连接池的话，还需commons-pool-1.5.4.jar，下载地址:http://files.cnblogs.com/liuling/commons-pool-1.5.4.jar.zip

2017-05-29 15:36:08 453

转载 json4s

最近开始使用json4s来解析和生成JSON。引入依赖dependency> groupId>org.json4sgroupId> artifactId>json4s-jackson_2.10artifactId> version>3.2.11version>dependency>1234512345构造JSON字符串例1

2017-05-28 17:45:00 2708

转载 scala隐式转换

简单说，隐式转换就是：当Scala编译器进行类型匹配时，如果找不到合适的候选，那么隐式转化提供了另外一种途径来告诉编译器如何将当前的类型转换成预期类型。本文原文出处: http://blog.csdn.net/bluishglc/article/details/50866314 严禁任何形式的转载，否则将委托CSDN官方维护权益！隐式转换有四种常见的使用场景：将某一类型转换成预期类

2017-05-28 15:24:13 455

转载 scala的模式匹配

首先，我们要在一开始强调一件很重要的事：Scala的模式匹配发生在但绝不仅限于发生在match case语句块中，这是Scala模式匹配之所以重要且有用的一个关键因素！我们会在文章的后半部分详细地讨论这一点。本文原文出处: http://blog.csdn.net/bluishglc/article/details/51056230 严禁任何形式的转载，否则将委托CSDN官方维护权益！

2017-05-28 15:03:44 420

转载 scala的闭包

闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。如下面这段匿名的函数：val multiplier = (i:Int) => i * 10 函数体内有一个变量 i，它作为函数的一个参数。如下面的另一段代码：val multiplier = (i:Int) => i * factor

2017-05-28 14:47:08 324

转载 mr性能调优

Map Side1.从磁盘读取数据并分片默认每个block对应一个分片，一个map task2.进行map处理运行自定义的map业务过程3.输出数据到缓冲区中map输出的数据并不是直接写入磁盘的，而是会先存储在一个预定义的buffer中4、分区、排序分组的过程对map输出的数据进行分区，按照key进行排序和分组5、归约（可选）

2017-05-28 11:56:59 4260 1

转载 mr中的combiner

问题提出：众所周知，Hadoop框架使用Mapper将数据处理成一个键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：（引用）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压

2017-05-28 11:29:38 993 1

转载 spark整合kafka的maven打包方式常见错误

问题1WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableException in thread "main" java.lang.NoClassDefFoundError: kafka/seria

2017-05-26 22:28:59 2141

原创 git回退版本

1. 使用Git log命令查看所有的历史版本，获取某个历史版本的id，假设查到历史版本的id是139dcfaa558e3276b30b6b2e5cbbb9c00bbdca96。2. [html] view plain copygit reset --hard 139dcfaa558e3276b30b6b2e5cbbb9c00bbdca96

2017-05-26 21:18:24 260

转载 jedis分布式锁

一、 Pipeline官方的说明是：starts a pipeline,which is a very efficient way to send lots of command and read all the responses when you finish sending them。简单点说pipeline适用于批处理。当有大量的操作需要一次性执行的时候，可以用管道。示例：

2017-05-26 19:56:20 1098

转载 redis的pipeline

Pipeline官方的说明是：starts a pipeline,which is a very efficient way to send lots of command and read all the responses when you finish sending them。简单点说pipeline适用于批处理。当有大量的操作需要一次性执行的时候，可以用管道。示例：Jed

2017-05-26 18:48:14 382

转载 scala的lazy

Scala中使用关键字lazy来定义惰性变量，实现延迟加载(懒加载)。惰性变量只能是不可变变量，并且只有在调用惰性变量时，才会去实例化这个变量。在Java中，要实现延迟加载(懒加载)，需要自己手动实现。一般的做法是这样的:public class LazyDemo { private String property;public String getProperty()

2017-05-26 18:25:35 577

转载 hadoop调度器

随着MapReduce的流行，其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中，有一个组件非常重要，那就是调度器，它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中，调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种，分别为：（注：本文介绍的Hadoop调度器不够系统化，如果想了解更系统化的Hadoop

2017-05-26 16:30:31 567

转载多mapreduce

对于复杂的mr任务来说，只有一个map和reduce往往是不能够满足任务需求的，有可能是需要n个map之后进行reduce，reduce之后又要进行m个map。在hadoop的mr编程中可以使用ChainMapper和ChainReducer来实现链式的Map-Reduce任务。ChainMapper以下为官方API文档翻译： ChainMapper类允许在单一的Map

2017-05-26 15:45:41 541

转载分布式缓存

MapReduce中的分布式缓存使用@(Hadoop)简介DistributedCache是Hadoop为MapReduce框架提供的一种分布式缓存机制，它会将需要缓存的文件分发到各个执行任务的子节点的机器中，各个节点可以自行读取本地文件系统上的数据进行处理。符号链接可以同在原本HDFS文件路径上+”#somename”来设置符号连接（相当于一个快捷方式

2017-05-26 15:17:26 769

转载反射

反射：Java反射机制是在运行状态中，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意一个对象，都能够调用它的任意一个方法和属性；这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制为什么Java反射性能差？java反射是要解析字节码，将内存中的对象进行解析，包括了一些动态类型，所以JVM无法对这些代码进行优化。因此，反射操作的效率要比那些非反

2017-05-23 16:07:29 508

转载 mapPartition

rdd的mapPartitions是map的一个变种，它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样：map的输入变换函数是应用于RDD中每个元素，而mapPartitions的输入函数是应用于每个分区。假设一个rdd有10个元素，分成3个分区。如果使用map方法，map中的输入函数会被调用10次；而使用mapPartitions方法的话，其输入函数会

2017-05-23 16:05:30 2298

转载 sparkGc

摘要：Spark立足内存计算，常常需要在内存中存放大量数据，因此也更依赖JVM的垃圾回收机制。与此同时，它也兼容批处理和流式处理，对于程序吞吐量和延迟都有较高要求，因此GC参数的调优在Spark应用实践中显得尤为重要。Spark是时下非常热门的大数据计算框架，以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库，正在工业界获得越来越广泛的应用。与Hadoop、HBase生态

2017-05-23 11:51:10 676

转载 hbase基本概念

说在前面,本文部分内容来源于社区官网经过适度翻译，部分根据经验总结，部分是抄袭网络博文，(不一一列举引用，在此致歉)一并列在一起，本文的目的，希望能总结出一些有用的，应该注意到的东西，基本思路是先提出一个话题，在此话题内，把相关联的东西加进去，而不是单独分出章节单独介绍，虽然条理性欠差，但有利于后期根据关键词查找。 Apache HBase 是Hadoop database的简称，h

2017-05-22 15:39:39 767

转载 hbase的createTable

Hbase建表函数提供了四个重载函数，分别是[java] view plain copy print?void createTable(HTableDescriptor desc) void createTable(HTableDescriptor desc, byte[] startKey,byte[] endKey, int numRegions) vo

2017-05-22 15:03:50 2472

原创常用的分布式事务解决方案（1）

事务是由一组操作构成的可靠，独立的工作单元。ACID：Atomicity(原子性）Consistency（一致性）isolation（隔离性）durability（持久性）难点：高度并发资源分布大时间跨度本地事务：事务由资源管理器（如DBMS）本地管理优点：支持严格的acid属性可靠高效状态可以只在资源管理器中维护应用编程

2017-05-09 14:44:35 1047

转载解决CentOS7关闭/开启防火墙出现Unit iptables.service failed to load: No such file or directory.

CentOS7中执行[plain] view plain copy service iptables start/stop 会报错Failed to start iptables.service: Unit iptables.service failed to load: No such file or directory.在CentOS 7或RHEL

2017-05-02 09:26:06 1167

转载 dubbo-admin平台

一、前言dubbo的使用，其实只需要有注册中心，消费者，提供者这三个就可以使用了，但是并不能看到有哪些消费者和提供者，为了更好的调试，发现问题，解决问题，因此引入dubbo-admin。通过dubbo-admin可以对消费者和提供者进行管理。二、下载与配置打包dubbo-admin的下载，可自行到官网下载：https://github.com/alibaba/dubbo当然，这

2017-05-01 21:33:26 420