2013年03月_猴子数据分析

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创词权重计算及应用

本文讨论如何计算词（有时候称特征向量）权重和向量空间模型及其应用。本文的“文档”是指查询对象，它们可以使一条条单独的记录或者是一本书的各章，还可以是一个网页，或者xml文件等。1 归一化在讨论词权重和向量空间模型前需要先了解下归一化的概念。归一化（normailization）方法有两种形式。第一种形式是把数变为（0，1）之间的小数,方便计算。第二种是把有量纲（量纲是指单位）表达式

2013-03-26 23:34:46 5070 2

原创动态规划(1)总述

1 Dynamic ProgrammingThe most widely example we use Dynamic Programming in our life is find the shortest/quickest path between two places.So what is the Dynamic Programming?Dynamic programming

2013-03-25 23:21:11 2599

原创 Hadoop开发周期（三）：单元测试

MapReduce一旦打包提交到分布式环境，如果出了问题，需要要定位调试，然后再打包发布。如果在发布MapRduce之前其做单元测试，消除明显的代码bug和逻辑错误，可以提高开发效率。 MRUnit是一款由Couldera公司开发的专门针对Hadoop中编写MapReduce单元测试的框架。可以用MapDriver单独测试Map，用ReduceDriver单独测试Reduce，用Map

2013-03-24 11:09:12 2936

原创 Hadoop开发周期（二）：编写mapper和reducer程序

编写一个简单的MapReduce程序大体上需要如下3步：1）实现Mapper，处理输入的对，输出中间结果；2）实现Reducer，对中间结果进行运算，输出最终结果；3）在main方法里定义运行作业，定义一个job，在这里控制job如何运行等。本文将通过一个实例（字数统计）演示MapReduce基本编程。0 导入Hadoop的jar包导入hadoo

2013-03-24 10:49:21 5590

原创 Hadoop开发周期（一）：基础环境安装

Hadoop的开发周期一般是：1）开发和部署环境准备2）编写mapper和reducer2）单元测试3）编译、打包4）提交作业和结果检索在用Hadoop处理大数据之间，需要首先将运行和开发环境部署好，下面是基础环境的安装过程，所有软件都安装在Linux系统上。下面先介绍在一台机器上的部署，该机器信息如下：1 JDK安装1）下载最新的JDK并减压

2013-03-24 02:16:50 2199

原创设计模式之观察者模式(5)

Design PrincipleStrive for loosely coupled designs between objects that interact.Loosely coupled designs allow us to build flexible OO systems that can handle change because they minimize the inte

2013-03-20 21:54:07 1828

原创动态规划(4)详细讲解各最短路径算法及比较

1 最短路径问题（The shortest-path problem, SPP）最短路径问题是图论研究中的一个经典算法问题，旨在寻找图中两结点之间的最短路径。算法具体的形式包括：1) 确定起点的最短路径问题 - 即已知起始结点，求最短路径的问题。2) 确定终点的最短路径问题 - 与确定起点的问题相反，该问题是已知终结结点，求最短路径的问题。在无向图中该问题与确定起点的问题完全

2013-03-18 21:12:56 29826 2

原创读JSE源码（四）栈和队列

1 总述1.1栈 stack定义：栈是一种特殊的线性表。其特殊性在于限定插入和删除数据元素的操作只能在线性表的一端进行。特点：先进后出基本操作：入栈push,出栈pop,获取栈定元素peek，判断栈是否为空isEmpty.实现：栈可以用数组实现，也可以用链表实现。栈的链表实现

2013-03-16 15:36:33 1808

转载 The Engineer Attitude工程素养

URL: http://www.codesimplicity.com/post/the-engineer-attitude/#more-187The attitude that every engineer should have, in every field of engineering, is:I can solve this problem the right way.

2013-03-11 19:53:44 1101

原创数据结构之图-有向图的拓扑排序(8)

DefinitionTopological sorting is useful in situations in which items or events must be arranged in a specific order. For example, topological sorting can model job scheduling.Modeling job schedules

2013-03-11 13:52:37 2914

原创数据结构之图-无权图的最小生成树(7)

1 Unweighted Graphs For unweighted Graphs, a minimum spanning tree(MST) means that a graph with minimum number of edges to connect all the vertices.the number of edges E in a minimum spanning t

2013-03-11 13:15:24 2046

原创数据结构之图- 图的表示方法(6)

Graphs is composed by vertices and edges. We can look at Internet as a graph, which webpage are vertices and hyperlinks are edges.Why doesn't the Java Collections API include a Graph implementat

2013-03-10 10:48:29 4086

原创数据结构之图-图遍历(6)

1 PrefaceThere are many algorithm about graph, but traverse algorithm is the most important algorithm. For example, crawl all webpage from the Internet need used the traverse algorithm. There are tw

2013-03-09 13:35:13 2083

Merge sort is suitable for sorting external data, because merge sort is the process divide big problem into small problems(divide and merge process, also called map and reduce process like in hadoop).

2013-03-06 23:03:33 990

原创 Use External Storage Process Big Data(1)

Problem:We discussed big data is that data can not fit in main memory(often called RAM, for Random Access Memory) all at once, how would you handle this situation?Solution:We can use Divide-Conq

2013-03-05 21:57:36 1525

原创海量空间数据的快速检索架构

1、背景目前空间信息中信息检索的对象是数据的元数据，这些元数据分布在各个单位中，而这些元数据的总数目是非常巨大的），空间信息检索的目的就是如何在大数据中快速找到用户需要的数据信息。空间信息数据共享的本质个人认为是建立一个快速的、高效的搜索引擎或信息检索引擎，像google、百度等，所以可以借鉴传统搜索引擎的大数据处理技术解决空间信息领域中的检索问题。2、传统空间信息检索

2013-03-04 23:38:35 4674 2

原创 Some advises about how to improve Google Chrome

Some advises about how to improve Google Chrome关于Google浏览器改进的几点建议ProblemToday I want to find a item which I just visited yesterday in bookmark "DataStructure & Algorithm ". So I open the b

2013-03-02 23:20:07 1192

MapReduce 编程模型

MapReduce goole MapReduce编程模型

2013-09-08

Google File System

Google File System分布式文件系统

2013-09-08

观察者模式模版和例子

观测者模式的例子和模版源代码，方便使用者使用

2013-09-05

linux每日自动备份脚本

linux每日自动备份脚本，该脚本backupday.sh用来每日备份你需要备份的文件或目录

2013-06-30

GenetworkClient

本人开发的Genetwork客户端代码，实现了空间资源的添加、删除、修改和查找功能，方便Genetwork用户和开发者使用Genetwork

2013-06-10

Data.Structures.and.Algorithms.in.Java, (Robert Lafore).2nd.Ed

2013-02-25

Head First Design Patterns

Head First设计模式，非常经典的设计模式教程。《Head First设计模式》共有14章，每章都介绍了几个设计模式，完整地涵盖了四人组版本全部23个设计模式。前言先介绍这本书的用法；第1章到第11章陆续介绍的设计模式为Strategy、Observer、Decorator、Abstract Factory、Factory Method、Singleton、Command、Adapter、Facade、Templat Method、Iterator、Composite、 State、Proxy。最后三章比较特别。第12章介绍如何将两个以上的设计模式结合起来成为新的设计模式（例如著名的MVC模式），作者称其为复合设计模式（这是作者自创的名称，并非四人组的标准名词），第13章介绍如何进一步学习设计模式，如何发觉新的设计模式等主题，至于第14章则很快地浏览尚未介绍的设计模式，包括Bridge、Builder、Chain of Responsibility、 Flyweight、Interpreter、Mediator、Memento、Prototype、Visitor。第1章还介绍了四个OO基本概念（抽象、封装、继承、多态），而第１章到第9章也陆续介绍了九个OO原则（Principle）。千万不要轻视这些OO原则，因为每个设计模式背后都包含了几个OO原则的概念。很多时候，在设计时有两难的情况，这时候我们必须回归到OO原则，以方便判断取舍。可以这么说：OO原则是我们的目标，而设计模式是我们的做法。

2013-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

公众号（猴子数据分析）