自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信公众号:猴子聊人物

通过人物的经历,快速打通一个陌生领域的知识

原创 词权重计算及应用

本文讨论如何计算词(有时候称特征向量)权重和向量空间模型及其应用。本文的“文档”是指查询对象,它们可以使一条条单独的记录或者是一本书的各章,还可以是一个网页,或者xml文件等。 1 归一化     在讨论词权重和向量空间模型前需要先了解下归一化的概念。归一化(normailization)方法有两...

2013-03-26 23:34:46

阅读数 3446

评论数 2

原创 动态规划(1)总述

1 Dynamic Programming The most widely example we use Dynamic Programming in our life is find the shortest/quickest path between two places.So what is...

2013-03-25 23:21:11

阅读数 2041

评论数 0

原创 Hadoop开发周期(三):单元测试

MapReduce一旦打包提交到分布式环境,如果出了问题,需要要定位调试,然后再打包发布。如果在发布MapRduce之前其做单元测试,消除明显的代码bug和逻辑错误,可以提高开发效率。      MRUnit是一款由Couldera公司开发的专门针对Hadoop中编写MapReduce单元测试的框...

2013-03-24 11:09:12

阅读数 2656

评论数 0

原创 Hadoop开发周期(二):编写mapper和reducer程序

编写一个简单的MapReduce程序大体上需要如下3步: 1)实现Mapper,处理输入的对,输出中间结果; 2)实现Reducer,对中间结果进行运算,输出最终结果; 3)在main方法里定义运行作业,定义一个job,在这里控制job如何运行等。 本文将通过一个实例(字数统计)演示...

2013-03-24 10:49:21

阅读数 4564

评论数 0

原创 Hadoop开发周期(一):基础环境安装

Hadoop的开发周期一般是: 1)开发和部署环境准备 2)编写mapper和reducer 2)单元测试 3)编译、打包 4)提交作业和结果检索        在用Hadoop处理大数据之间,需要首先将运行和开发环境部署好,下面是基础环境的安装过程,所有软件都安装在Linux系统上。下面先介绍...

2013-03-24 02:16:50

阅读数 1880

评论数 0

原创 设计模式之观察者模式(5)

Design Principle Strive for loosely coupled designs between objects that interact. Loosely coupled designs allow us to build flexible OO systems that...

2013-03-20 21:54:07

阅读数 1345

评论数 0

原创 动态规划(4)详细讲解各最短路径算法及比较

1 最短路径问题(The shortest-path problem, SPP)     最短路径问题是图论研究中的一个经典算法问题,旨在寻找图中两结点之间的最短路径。 算法具体的形式包括: 1) 确定起点的最短路径问题 - 即已知起始结点,求最短路径的问题。 2) 确定终点的最短路径问题 - 与...

2013-03-18 21:12:56

阅读数 17887

评论数 2

原创 读JSE源码(四)栈和队列

1 总述 1.1栈 stack 定义:栈是一种特殊的线性表。其特殊性在于限定插入和删除数据元素的操作只能在线性表的一端进行。 特点:先进后出 基本操作: 入栈push, 出栈pop, 获取栈定元素peek, 判断栈是否为空isEmpty. 实现:栈可以用数组实现,也可以用链表实现。       ...

2013-03-16 15:36:33

阅读数 1475

评论数 0

转载 The Engineer Attitude工程素养

URL: http://www.codesimplicity.com/post/the-engineer-attitude/#more-187 The attitude that every engineer should have, in every field of engineering,...

2013-03-11 19:53:44

阅读数 753

评论数 0

原创 数据结构之图-有向图的拓扑排序(8)

Definition Topological sorting is useful in situations in which items or events must be arranged in a specific order. For example, topological sortin...

2013-03-11 13:52:37

阅读数 2033

评论数 0

原创 数据结构之图-无权图的最小生成树(7)

1 Unweighted Graphs  For unweighted Graphs, a minimum  spanning tree(MST) means that a graph with minimum number of edges to connect all the vertices...

2013-03-11 13:15:24

阅读数 1576

评论数 0

原创 数据结构之图- 图的表示方法(6)

Graphs is composed by vertices and edges. We can look at Internet as a graph, which webpage are vertices and hyperlinks are edges. Why doesn't...

2013-03-10 10:48:29

阅读数 2760

评论数 0

原创 数据结构之图-图遍历(6)

1 Preface There are many algorithm about graph, but traverse algorithm is the most important algorithm. For example, crawl all webpage from the Inter...

2013-03-09 13:35:13

阅读数 1597

评论数 0

转载 Sorting External Files

Merge sort is suitable for sorting external data, because merge sort is the process divide big problem into small problems(divide and merge process, ...

2013-03-06 23:03:33

阅读数 788

评论数 0

原创 Use External Storage Process Big Data(1)

Problem: We discussed big data is that data can not fit in main memory(often called RAM, for Random Access Memory) all at once, how would you handle ...

2013-03-05 21:57:36

阅读数 1178

评论数 0

原创 海量空间数据的快速检索架构

1、 背景         目前空间信息中信息检索的对象是数据的元数据,这些元数据分布在各个单位中,而这些元数据的总数目是非常巨大的),空间信息检索的目的就是如何在大数据中快速找到用户需要的数据信息。空间信息数据共享的本质个人认为是建立一个快速的、高效的搜索引擎或信息检索引擎,像google、百度...

2013-03-04 23:38:35

阅读数 3359

评论数 2

原创 Some advises about how to improve Google Chrome

Some advises about how to improve Google Chrome 关于Google浏览器改进的几点建议 Problem Today I want to find a item which I just visited yesterday in boo...

2013-03-02 23:20:07

阅读数 900

评论数 0

提示
确定要删除当前文章?
取消 删除