2014年02月_xiewenbo

09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 tomcat集群环境下，JSP页面更新同步，页面展示未更新的问题排查

referer: http://blog.csdn.net/shootyou/article/details/6310355背景：企业环境下使用域名轮询 + 多台tomcat 来平衡负载，tomcat之间共享数据库，因为没用到session所以并没有做tomcat集群的配置。多个tomcat之间会使用rsync文件同步来同步工程文件，举例说来就是，用一台服务器作为主服务器，一旦主服

2014-02-27 22:00:58 1315

转载 HttpClient4.X 升级入门 + http连接池使用-too many open files

referer http://blog.csdn.net/shootyou/article/details/6415248在一次服务器异常的排查过程当中（服务器异常排查的过程我会另起文章），我们决定使用HttpClient4.X替代HttpClient3.X或者HttpConnection。为什么使用HttpClient4？主要是HttpConnection没有连接池的

2014-02-27 21:56:35 1803

转载 Tomcat 中响应头信息(Http Response Header) Content-Length 和 Transfer-Encoding 之种种

客户端（PC浏览器或者手机浏览器）在接受到Tomcat的响应的时候，头信息通常都会带上Content-Length ，一般情况下客户端会在接受完Content-Length长度的数据之后才会开始解析。而在Tomcat上，页面处理过程中会将需要out.print的数据都放在缓存中，然后一次性的返回给客户端。另外一种情况就是头信息中不存在Content-Length ，取而代之的是T

2014-02-27 21:47:52 2187

转载 ProtocolBuffer和lzo技术Hadoop系统上的使用

转载：http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html概述基于hadoop的集群分布式数据处理目前是淘宝搜索中心最重要的数据处理平台，在集群物理条件确定的情况下，有几个方面影响了数据处理的速度。1、数据大小（影响磁盘IO和网络IO）2、数据格式（影响数据的解析及构造速度）3、并行度使用

2014-02-27 14:51:38 683

转载 Introduction to elephant-bird

转载： http://guoyunsky.iteye.com/blog/1780150国内基于elephant-bird的资料还太少,除了淘宝搜索技术博客上的一篇,网址:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html，基本就没有了。但这篇也只是介绍如何使用. 其实对于elephant-bird的说明在其

2014-02-27 14:49:29 661

转载 elephent-bird 安装

转载 http://guoyunsky.iteye.com/blog/1780165 elephant-bird使用还是比较简单，毕竟只是一个生成代码的工具.我一开始以为elephant-bird也跟Protcol Buffer或Thrift一样,有自己的脚本,传入参数和参数值,通过脚本去生成代码.后来才发现,根本无需如此. 毕竟elephant-bir

2014-02-27 14:46:31 805

转载 rhadoop安装

RHadoop实践系列文章RHadoop实践系列文章，包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据，R语言完成MapReduce算法，用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者，有更强大的工具处理大数据。1G, 10G, 100G, TB,PB 由于大数据所带来的单机性能问题，可能会一去联复返了。RHad

2014-02-26 17:40:26 1588 1

转载 hadoop使用lzo压缩文件笔记 (cdh3u0)

编译LZO下载： http://www.oberhumer.com/opensource/lzo/download/ wgethttp://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 安装：tar -zxflzo-2.06.tar.gzcd lzo-2.06./configure --e

2014-02-25 16:19:13 967

原创 oozie——mapreduce、mysql2hdfs、hdfs2hive

Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unl

2014-02-24 17:49:38 992 2

转载 Sqoop安装及操作以及oozie&sqoop

一、集群环境： HostnameIPHadoop版本Hadoop功能系统node1 192.168.1.1510.20.0namenodehive+sqooprhel5.4X86node2 1

2014-02-24 16:00:22 1660

原创 JVM性能调优

-XX:+UseConcMarkSweepGC 设置并发收集器（不会导致程序停止）-XX:+CMSIncrementalMode 适用于单核CPU-XX:+UseParNewGC 对年轻代采用多线程并行回收-XX:CMSInitiatingOccupancyFraction=60 -XX:+UseCMSInitiatingOccupancyOnly -XX:+CMSIncrem

2014-02-24 09:55:20 900

转载 Ubuntu安装配置Mysql

三种安装方式：　　1. 从网上安装 sudo apt-get install mysql-server。装完已经自动配置好环境变量，可以直接使用mysql的命令。　　　　注：建议将/etc/apt/source.list中的cn改成us，美国的服务器比中国的快很多。　　2. 安装离线包，以mysql-5.0.45-linux-i686-icc-glibc23.tar.gz为

2014-02-23 14:59:20 474

转载 LzoIndexer对TextFile格式文件的lzo压缩建立index索引

hadoop中可以对文件进行压缩，可以采用gzip、lzo、snappy等压缩算法。对于lzo压缩，常用的有LzoCodec和lzopCodec，可以对sequenceFile和TextFile进行压缩，但是有一点，对TextFile压缩后，mapred对压缩后的文件默认是不能够进行split操作，需要对该lzo压缩文件进行index操作，生成lzo.index文件，map操作才可以进行s

2014-02-21 10:30:31 2183

转载 Trie树 - TeraSort 里自定义 partition 时乃至

一：概念下面我们有and,as,at,cn,com这些关键词，那么如何构建trie树呢？从上面的图中，我们或多或少的可以发现一些好玩的特性。第一：根节点不包含字符，除根节点外的每一个子节点都包含一个字符。第二：从根节点到某一节点，路径上经过的字符连接起来，就是该节点对应的字符串。第三：每个单词的公共前缀作

2014-02-20 15:26:47 680

转载 zookeeper 原理

zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件，它是开源的Hadoop项目中的一个子项目，并且根据google发表的论文来实现的，接下来我们首先来安装使用下这个软件，然后再来探索下其中比较重要一致性算法。 zookeeper安装和使用zookeeper的安装基本上可以按照 http://hadoop.apache.org/zookeeper/doc

2014-02-20 11:11:42 600

转载 some useful blog

http://www.searchtb.com/http://www.cnblogs.com/huangxincheng/http://rdc.taobao.org/?p=533http://qing.blog.sina.com.cn/tbuthttp://www.rdatamining.com/tutorials/rhadoophttp://blog.fens.m

2014-02-19 19:56:10 890

转载 hadoop + protobuf + lzo

概述基于hadoop的集群分布式数据处理目前是淘宝搜索中心最重要的数据处理平台，在集群物理条件确定的情况下，有几个方面影响了数据处理的速度。1、数据大小（影响磁盘IO和网络IO）2、数据格式（影响数据的解析及构造速度）3、并行度使用 protocolBuffer + lzo技术，能帮我们做到数据小解析快并行度高这三点，能帮我们大幅度提高处理的速度。下面详细介绍

2014-02-19 19:54:21 1183

转载深入理解Java内存模型（四）——volatile

volatile的特性当我们声明共享变量为volatile后，对这个变量的读/写将会很特别。理解volatile特性的一个好方法是：把对volatile变量的单个读/写，看成是使用同一个监视器锁对这些单个读/写操作做了同步。下面我们通过具体的示例来说明，请看下面的示例代码：class VolatileFeaturesExample { volatile long vl = 0L

2014-02-19 16:35:34 519

转载深入理解Java内存模型 1

并发编程模型的分类在并发编程中，我们需要处理两个关键问题：线程之间如何通信及线程之间如何同步（这里的线程是指并发执行的活动实体）。通信是指线程之间以何种机制来交换信息。在命令式编程中，线程之间的通信机制有两种：共享内存和消息传递。在共享内存的并发模型里，线程之间共享程序的公共状态，线程之间通过写-读内存中的公共状态来隐式进行通信。在消息传递的并发模型里，线程之间没有公共状态，线程之

2014-02-19 16:33:41 500

转载 Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(二)

与MultipleOutputFormat类不一样的是，MultipleOutputs可以为不同的输出产生不同类型，到这里所说的MultipleOutputs类还是旧版本的功能，后面会提到新版本类库的强化版MultipleOutputs类，下面我们来用旧版本的MultipleOutputs类说明它是如何为不同的输出产生不同类型，MultipleOutputs类不是要求给每条记录请求文件名，而是创建

2014-02-18 17:37:20 766

转载 Hadoop多文件输出：MultipleOutputFormat和MultipleOutputs深究(一)

直到目前，我们看到的所有Mapreduce作业都输出一组文件。但是，在一些场合下，经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便；比如将一个log里面属于不同业务线的日志分开来输出，并交给相关的业务线。　　用过旧API的人应该知道，旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoo

2014-02-18 17:36:24 591

转载 Hadoop0.20+ custom MultipleOutputFormat

Hadoop0.20.2中无法使用MultipleOutputFormat，多文件输出这个方法。尽管0.19.2中的方法老的方法org.apache.hadoop.mapred.lib.MultipleOutputFormat还是可以继续在0.20.2中使用，但是org.apache.hadoop.mapred下的方法都是标记为“已过时”，在hadoop下个版本中可能就不能使用了。hadoop

2014-02-18 17:15:37 558

转载 MapReduce高级编程——自定义InputFormat

http://irwenqiang.iteye.com/blog/14481640、测试集样例Java代码 ball, 3.5, 12.7, 9.0 car, 15, 23.76, 42.23 device, 0.0, 12.4, -67.1 1、测试Point3D InputFormatJava

2014-02-18 16:11:29 919

原创 MaxSecondSort 代码片段以及说明

/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding

2014-02-18 13:41:21 676

原创 hadoop DistributeCatche使用代码片段

package org.apache.hadoop.examples;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org

2014-02-17 17:58:25 578

原创 hadoop中的分布式缓存——DistributedCache

package org.apache.hadoop.examples;import java.io.IOException;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.filecache.DistributedCache;import org.apac

2014-02-17 14:16:26 643

转载 Hadoop中的各种排序

1：shuffle阶段的排序（部分排序）shuffle阶段的排序可以理解成两部分，一个是对spill进行分区时，由于一个分区包含多个key值，所以要对分区内的按照key进行排序，即key值相同的一串存放在一起，这样一个partition内按照key值整体有序了。第二部分并不是排序，而是进行merge，merge有两次，一次是map端将多个spill 按照分区和分区内的key进行me

2014-02-17 14:16:05 669

转载 Hadoop中的采样器

1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009/12/20/hadoop-tutorial-series-issue-2-getting-started-with-customized-partitioning/ 简单的来说就是解决"How to automatically find “good

2014-02-17 14:10:48 1159

转载 Mapreduce-Partition分析

http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求：1）均衡负载，尽量的将工作均匀的分配给不同的reduce

2014-02-17 11:08:49 483

转载 Trie树

Trie树既可用于一般的字典搜索，也可用于索引查找。对于给定的一个字符串a1,a2,a3,...,an.则采用TRIE树搜索经过n次搜索即可完成一次查找。不过好像还是没有B树的搜索效率高，B树搜索算法复杂度为logt(n+1/2).当t趋向大，搜索效率变得高效。怪不得DB2的访问内存设置为虚拟内存的一个PAGE大小，而且帧切换频率降低，无需经常的PAGE切换。10.

2014-02-17 11:02:14 490

转载 *Nutch 1.3 学习笔记3-1 Inject CrawlDB Reader

上次我们分析了Inject的整个流程，其中说到了Inject的输出格式是MapSequenceFileOutputFormat，这个格式可以使用一个叫CrawlDbReader的工具来读取和分析。下面我们就来分析一下这个工具有哪些用。1. CrawlDbReader工具的使用方法在命令行中运行bin/nutch readdb后就可以看到其帮助，实际上这个shell方法调用的正

2014-02-16 17:23:25 464

转载 *** Nutch 1.3 学习笔记3 - Inject

1. Inject是干嘛的？在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中，一般是用来引导系统的初始化。这里的文本格式如下：[html] view plaincopyhttp://www.nutch.org/ \t nutch.score=10 \t nutch.fetchInterval=2592000 \t us

2014-02-15 23:38:38 509

转载 Nutch 1.3 学习笔记2

1. Nutch 1.3 运行命令的一些介绍要看Nutch的命令说明，可执行如下命令bin/nutch [html] view plaincopy Usage: nutch [-core] COMMAND where COMMAND is one of: crawl one-step

2014-02-15 23:34:44 614

转载 Nutch 1.3 学习笔记1

[-]Nutch是什么在哪里要可以下载到最新的Nutch如何配置Nutch对下载后的压缩包进行解压然后cd HOMEnutch-13runtimelocal配置binnutch这个文件的权限使用chmod x binnutch 配置JAVA_HOME使用export JAVA_HOMEPATH抓取前要做什么准备工作建立一个地址目录mkdir -p urls然后运行如下命

2014-02-15 23:33:43 533

转载 Nutch 1.3 学习笔记

http://blog.csdn.net/amuseme_lu/article/category/330217

2014-02-15 23:30:49 559

转载 R语言基本数据分析

本文基于R语言进行基本数据统计分析，包括基本作图，线性拟合，逻辑回归，bootstrap采样和Anova方差分析的实现及应用。不多说，直接上代码，代码中有注释。1. 基本作图（盒图，qq图）[plain] view plaincopy#basic plot boxplot(x) qqplot(x

2014-02-12 23:28:37 1089

转载那些你看不见的 Facebook 创新

Facebook 十年，深刻地改变了互联网。像 Like（点赞）、Wall（留言墙）和 Timeline（时间线）这些只不过是用户可以见到的产品创新，都是我们每次登陆时候能够见到的。在这些产品的后面，在庞大的数据中心里面，还能找到各种各样其他类型的技术。它们都在用不同的方式改变着我们的世界。Facebook 在全球的用户数量已经超过 12 亿，Facebook 的工程师们要不断

2014-02-10 23:16:35 1164

httpclient tutorial httpclient 指南

httpclient 指南包括了详细的调用和常用代码 The Hyper-Text Transfer Protocol (HTTP) is perhaps the most significant protocol used on the Internet today. Web services, network-enabled appliances and the growth of network computing continue to expand the role of the HTTP protocol beyond user-driven web browsers, while increasing the number of applications that require HTTP support. Although the java.net package provides basic functionality for accessing resources via HTTP, it doesn't provide the full flexibility or functionality needed by many applications. HttpClient seeks to fill this void by providing an efficient, up-to-date, and feature-rich package implementing the client side of the most recent HTTP standards and recommendations. Designed for extension while providing robust support for the base HTTP protocol, HttpClient may be of interest to anyone building HTTP-aware client applications such as web browsers, web service clients, or systems that leverage or extend the HTTP protocol for distributed communication.

2018-03-08

mask rcnn paper

We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, e.g., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. Without tricks, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code will be made available.

2018-03-07

Applying Deep Learning To Answer Selection

Applying Deep Learning To Answer Selection- A Study And An Open Task

2018-03-07

Learning Phrase Representations using RNN Encoder–Decoder

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

2018-03-07

BPTT BackPropagation Through Time.pdf

BPTT paper This report provides detailed description and necessary derivations for the BackPropagation Through Time (BPTT) algorithm. BPTT is often used to learn recurrent neural networks (RNN). Contrary to feed-forward neural networks, the RNN is characterized by the ability of encoding longer past information, thus very suitable for sequential models. The BPTT extends the ordinary BP algorithm to suit the recurrent neural architecture.

2018-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人