- 博客(37)
- 资源 (6)
- 收藏
- 关注
转载 tomcat集群环境下,JSP页面更新同步,页面展示未更新 的问题排查
referer: http://blog.csdn.net/shootyou/article/details/6310355背景:企业环境下使用域名轮询 + 多台tomcat 来平衡负载,tomcat之间共享数据库,因为没用到session所以并没有做tomcat集群的配置。多个tomcat之间会使用rsync文件同步来同步工程文件,举例说来就是,用一台服务器作为主服务器,一旦主服
2014-02-27 22:00:58 1315
转载 HttpClient4.X 升级 入门 + http连接池使用-too many open files
referer http://blog.csdn.net/shootyou/article/details/6415248在一次服务器异常的排查过程当中(服务器异常排查的过程我会另起文章),我们决定使用HttpClient4.X替代HttpClient3.X或者HttpConnection。为什么使用HttpClient4?主要是HttpConnection没有连接池的
2014-02-27 21:56:35 1803
转载 Tomcat 中响应头信息(Http Response Header) Content-Length 和 Transfer-Encoding 之种种
客户端(PC浏览器或者手机浏览器)在接受到Tomcat的响应的时候,头信息通常都会带上Content-Length ,一般情况下客户端会在接受完Content-Length长度的数据之后才会开始解析。而在Tomcat上,页面处理过程中会将需要out.print的数据都放在缓存中,然后一次性的返回给客户端。 另外一种情况就是头信息中不存在Content-Length ,取而代之的是T
2014-02-27 21:47:52 2187
转载 ProtocolBuffer和lzo技术Hadoop系统上的使用
转载:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html概述基于hadoop的集群分布式数据处理目前是淘宝搜索中心最重要的数据处理平台,在集群物理条件确定的情况下,有几个方面影响了数据处理的速度。1、数据大小 (影响磁盘IO和网络IO)2、数据格式 (影响数据的解析及构造速度)3、并行度使用
2014-02-27 14:51:38 683
转载 Introduction to elephant-bird
转载: http://guoyunsky.iteye.com/blog/1780150国内基于elephant-bird的资料还太少,除了淘宝搜索技术博客上的一篇,网址:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html,基本就没有了。但这篇也只是介绍如何使用. 其实对于elephant-bird的说明在其
2014-02-27 14:49:29 661
转载 elephent-bird 安装
转载 http://guoyunsky.iteye.com/blog/1780165 elephant-bird使用还是比较简单,毕竟只是一个生成代码的工具.我一开始以为elephant-bird也跟Protcol Buffer或Thrift一样,有自己的脚本,传入参数和参数值,通过脚本去生成代码.后来才发现,根本无需如此. 毕竟elephant-bir
2014-02-27 14:46:31 805
转载 rhadoop安装
RHadoop实践系列文章RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据。1G, 10G, 100G, TB,PB 由于大数据所带来的单机性能问题,可能会一去联复返了。RHad
2014-02-26 17:40:26 1588 1
转载 hadoop使用lzo压缩文件笔记 (cdh3u0)
编译LZO下载: http://www.oberhumer.com/opensource/lzo/download/ wgethttp://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 安装:tar -zxflzo-2.06.tar.gzcd lzo-2.06./configure --e
2014-02-25 16:19:13 967
原创 oozie——mapreduce、mysql2hdfs、hdfs2hive
Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unl
2014-02-24 17:49:38 992 2
转载 Sqoop安装及操作以及oozie&sqoop
一、集群环境: HostnameIPHadoop版本Hadoop功能系统node1 192.168.1.1510.20.0namenodehive+sqooprhel5.4X86node2 1
2014-02-24 16:00:22 1660
原创 JVM性能调优
-XX:+UseConcMarkSweepGC 设置并发收集器(不会导致程序停止)-XX:+CMSIncrementalMode 适用于单核CPU-XX:+UseParNewGC 对年轻代采用多线程并行回收-XX:CMSInitiatingOccupancyFraction=60 -XX:+UseCMSInitiatingOccupancyOnly -XX:+CMSIncrem
2014-02-24 09:55:20 900
转载 Ubuntu安装配置Mysql
三种安装方式: 1. 从网上安装 sudo apt-get install mysql-server。装完已经自动配置好环境变量,可以直接使用mysql的命令。 注:建议将/etc/apt/source.list中的cn改成us,美国的服务器比中国的快很多。 2. 安装离线包,以mysql-5.0.45-linux-i686-icc-glibc23.tar.gz为
2014-02-23 14:59:20 474
转载 LzoIndexer对TextFile格式文件的lzo压缩建立index索引
hadoop中可以对文件进行压缩,可以采用gzip、lzo、snappy等压缩算法。对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和TextFile进行压缩,但是有一点,对TextFile压缩后,mapred对压缩后的文件默认是不能够进行split操作,需要对该lzo压缩文件进行index操作,生成lzo.index文件,map操作才可以进行s
2014-02-21 10:30:31 2183
转载 Trie树 - TeraSort 里 自定义 partition 时乃至
一:概念 下面我们有and,as,at,cn,com这些关键词,那么如何构建trie树呢?从上面的图中,我们或多或少的可以发现一些好玩的特性。 第一:根节点不包含字符,除根节点外的每一个子节点都包含一个字符。 第二:从根节点到某一节点,路径上经过的字符连接起来,就是该节点对应的字符串。 第三:每个单词的公共前缀作
2014-02-20 15:26:47 680
转载 zookeeper 原理
zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法。 zookeeper安装和使用zookeeper的安装基本上可以按照 http://hadoop.apache.org/zookeeper/doc
2014-02-20 11:11:42 600
转载 some useful blog
http://www.searchtb.com/http://www.cnblogs.com/huangxincheng/http://rdc.taobao.org/?p=533http://qing.blog.sina.com.cn/tbuthttp://www.rdatamining.com/tutorials/rhadoophttp://blog.fens.m
2014-02-19 19:56:10 890
转载 hadoop + protobuf + lzo
概述基于hadoop的集群分布式数据处理目前是淘宝搜索中心最重要的数据处理平台,在集群物理条件确定的情况下,有几个方面影响了数据处理的速度。1、数据大小 (影响磁盘IO和网络IO)2、数据格式 (影响数据的解析及构造速度)3、并行度使用 protocolBuffer + lzo技术,能帮我们做到数据小解析快并行度高这三点, 能帮我们大幅度提高处理的速度。下面详细介绍
2014-02-19 19:54:21 1183
转载 深入理解Java内存模型(四)——volatile
volatile的特性当我们声明共享变量为volatile后,对这个变量的读/写将会很特别。理解volatile特性的一个好方法是:把对volatile变量的单个读/写,看成是使用同一个监视器锁对这些单个读/写操作做了同步。下面我们通过具体的示例来说明,请看下面的示例代码:class VolatileFeaturesExample { volatile long vl = 0L
2014-02-19 16:35:34 519
转载 深入理解Java内存模型 1
并发编程模型的分类在并发编程中,我们需要处理两个关键问题:线程之间如何通信及线程之间如何同步(这里的线程是指并发执行的活动实体)。通信是指线程之间以何种机制来交换信息。在命令式编程中,线程之间的通信机制有两种:共享内存和消息传递。在共享内存的并发模型里,线程之间共享程序的公共状态,线程之间通过写-读内存中的公共状态来隐式进行通信。在消息传递的并发模型里,线程之间没有公共状态,线程之
2014-02-19 16:33:41 500
转载 Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
与MultipleOutputFormat类不一样的是,MultipleOutputs可以为不同的输出产生不同类型,到这里所说的MultipleOutputs类还是旧版本的功能,后面会提到新版本类库的强化版MultipleOutputs类,下面我们来用旧版本的MultipleOutputs类说明它是如何为不同的输出产生不同类型,MultipleOutputs类不是要求给每条记录请求文件名,而是创建
2014-02-18 17:37:20 766
转载 Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
直到目前,我们看到的所有Mapreduce作业都输出一组文件。但是,在一些场合下,经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便;比如将一个log里面属于不同业务线的日志分开来输出,并交给相关的业务线。 用过旧API的人应该知道,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoo
2014-02-18 17:36:24 591
转载 Hadoop0.20+ custom MultipleOutputFormat
Hadoop0.20.2中无法使用MultipleOutputFormat,多文件输出这个方法。尽管0.19.2中的方法老的方法org.apache.hadoop.mapred.lib.MultipleOutputFormat还是可以继续在0.20.2中使用,但是org.apache.hadoop.mapred下的方法都是标记为“已过时”,在hadoop下个版本中可能就不能使用了。hadoop
2014-02-18 17:15:37 558
转载 MapReduce高级编程——自定义InputFormat
http://irwenqiang.iteye.com/blog/14481640、测试集样例Java代码 ball, 3.5, 12.7, 9.0 car, 15, 23.76, 42.23 device, 0.0, 12.4, -67.1 1、测试Point3D InputFormatJava
2014-02-18 16:11:29 919
原创 MaxSecondSort 代码片段以及说明
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding
2014-02-18 13:41:21 676
原创 hadoop DistributeCatche使用代码片段
package org.apache.hadoop.examples;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org
2014-02-17 17:58:25 578
原创 hadoop中的分布式缓存——DistributedCache
package org.apache.hadoop.examples;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.filecache.DistributedCache;import org.apac
2014-02-17 14:16:26 643
转载 Hadoop中的各种排序
1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的按照key进行排序,即key值相同的一串存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次,一次是map端将多个spill 按照分区和分区内的key进行me
2014-02-17 14:16:05 669
转载 Hadoop中的采样器
1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009/12/20/hadoop-tutorial-series-issue-2-getting-started-with-customized-partitioning/ 简单的来说就是解决"How to automatically find “good
2014-02-17 14:10:48 1159
转载 Mapreduce-Partition分析
http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce
2014-02-17 11:08:49 483
转载 Trie树
Trie树既可用于一般的字典搜索,也可用于索引查找。对于给定的一个字符串a1,a2,a3,...,an.则采用TRIE树搜索经过n次搜索即可完成一次查找。不过好像还是没有B树的搜索效率高,B树搜索算法复杂度为logt(n+1/2).当t趋向大,搜索效率变得高效。怪不得DB2的访问内存设置为虚拟内存的一个PAGE大小,而且帧切换频率降低,无需经常的PAGE切换。10.
2014-02-17 11:02:14 490
转载 *Nutch 1.3 学习笔记3-1 Inject CrawlDB Reader
上次我们分析了Inject的整个流程,其中说到了Inject的输出格式是MapSequenceFileOutputFormat,这个格式可以使用一个叫CrawlDbReader的工具来读取和分析。下面我们就来分析一下这个工具有哪些用。1. CrawlDbReader工具的使用方法 在命令行中运行bin/nutch readdb后就可以看到其帮助,实际上这个shell方法调用的正
2014-02-16 17:23:25 464
转载 *** Nutch 1.3 学习笔记3 - Inject
1. Inject是干嘛的?在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。这里的文本格式如下:[html] view plaincopyhttp://www.nutch.org/ \t nutch.score=10 \t nutch.fetchInterval=2592000 \t us
2014-02-15 23:38:38 509
转载 Nutch 1.3 学习笔记2
1. Nutch 1.3 运行命令的一些介绍 要看Nutch的命令说明,可执行如下命令bin/nutch [html] view plaincopy Usage: nutch [-core] COMMAND where COMMAND is one of: crawl one-step
2014-02-15 23:34:44 614
转载 Nutch 1.3 学习笔记1
[-]Nutch是什么在哪里要可以下载到最新的Nutch如何配置Nutch对下载后的压缩包进行解压然后cd HOMEnutch-13runtimelocal配置binnutch这个文件的权限使用chmod x binnutch 配置JAVA_HOME使用export JAVA_HOMEPATH抓取前要做什么准备工作建立一个地址目录mkdir -p urls然后运行如下命
2014-02-15 23:33:43 533
转载 R语言 基本数据分析
本文基于R语言进行基本数据统计分析,包括基本作图,线性拟合,逻辑回归,bootstrap采样和Anova方差分析的实现及应用。不多说,直接上代码,代码中有注释。1. 基本作图(盒图,qq图)[plain] view plaincopy#basic plot boxplot(x) qqplot(x
2014-02-12 23:28:37 1089
转载 那些你看不见的 Facebook 创新
Facebook 十年,深刻地改变了互联网。像 Like(点赞)、Wall(留言墙)和 Timeline(时间线)这些只不过是用户可以见到的产品创新,都是我们每次登陆时候能够见到的。在这些产品的后面,在庞大的数据中心里面,还能找到各种各样其他类型的技术。它们都在用不同的方式改变着我们的世界。Facebook 在全球的用户数量已经超过 12 亿,Facebook 的工程师们要不断
2014-02-10 23:16:35 1164
httpclient tutorial httpclient 指南
2018-03-08
mask rcnn paper
2018-03-07
Applying Deep Learning To Answer Selection
2018-03-07
Learning Phrase Representations using RNN Encoder–Decoder
2018-03-07
BPTT BackPropagation Through Time.pdf
2018-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人