- 博客(17)
- 资源 (11)
- 收藏
- 关注
原创 词权重计算及应用
本文讨论如何计算词(有时候称特征向量)权重和向量空间模型及其应用。本文的“文档”是指查询对象,它们可以使一条条单独的记录或者是一本书的各章,还可以是一个网页,或者xml文件等。1 归一化 在讨论词权重和向量空间模型前需要先了解下归一化的概念。归一化(normailization)方法有两种形式。第一种形式是把数变为(0,1)之间的小数,方便计算。第二种是把有量纲(量纲是指单位)表达式
2013-03-26 23:34:46 5070 2
原创 动态规划(1)总述
1 Dynamic ProgrammingThe most widely example we use Dynamic Programming in our life is find the shortest/quickest path between two places.So what is the Dynamic Programming?Dynamic programming
2013-03-25 23:21:11 2599
原创 Hadoop开发周期(三):单元测试
MapReduce一旦打包提交到分布式环境,如果出了问题,需要要定位调试,然后再打包发布。如果在发布MapRduce之前其做单元测试,消除明显的代码bug和逻辑错误,可以提高开发效率。 MRUnit是一款由Couldera公司开发的专门针对Hadoop中编写MapReduce单元测试的框架。可以用MapDriver单独测试Map,用ReduceDriver单独测试Reduce,用Map
2013-03-24 11:09:12 2936
原创 Hadoop开发周期(二):编写mapper和reducer程序
编写一个简单的MapReduce程序大体上需要如下3步:1)实现Mapper,处理输入的对,输出中间结果;2)实现Reducer,对中间结果进行运算,输出最终结果;3)在main方法里定义运行作业,定义一个job,在这里控制job如何运行等。本文将通过一个实例(字数统计)演示MapReduce基本编程。0 导入Hadoop的jar包导入hadoo
2013-03-24 10:49:21 5590
原创 Hadoop开发周期(一):基础环境安装
Hadoop的开发周期一般是:1)开发和部署环境准备2)编写mapper和reducer2)单元测试3)编译、打包4)提交作业和结果检索 在用Hadoop处理大数据之间,需要首先将运行和开发环境部署好,下面是基础环境的安装过程,所有软件都安装在Linux系统上。下面先介绍在一台机器上的部署,该机器信息如下:1 JDK安装1)下载最新的JDK并减压
2013-03-24 02:16:50 2199
原创 设计模式之观察者模式(5)
Design PrincipleStrive for loosely coupled designs between objects that interact.Loosely coupled designs allow us to build flexible OO systems that can handle change because they minimize the inte
2013-03-20 21:54:07 1828
原创 动态规划(4)详细讲解各最短路径算法及比较
1 最短路径问题(The shortest-path problem, SPP) 最短路径问题是图论研究中的一个经典算法问题,旨在寻找图中两结点之间的最短路径。 算法具体的形式包括:1) 确定起点的最短路径问题 - 即已知起始结点,求最短路径的问题。2) 确定终点的最短路径问题 - 与确定起点的问题相反,该问题是已知终结结点,求最短路径的问题。在无向图中该问题与确定起点的问题完全
2013-03-18 21:12:56 29826 2
原创 读JSE源码(四)栈和队列
1 总述1.1栈 stack定义:栈是一种特殊的线性表。其特殊性在于限定插入和删除数据元素的操作只能在线性表的一端进行。特点:先进后出基本操作:入栈push,出栈pop,获取栈定元素peek,判断栈是否为空isEmpty.实现:栈可以用数组实现,也可以用链表实现。 栈的链表实现
2013-03-16 15:36:33 1808
转载 The Engineer Attitude工程素养
URL: http://www.codesimplicity.com/post/the-engineer-attitude/#more-187The attitude that every engineer should have, in every field of engineering, is:I can solve this problem the right way.
2013-03-11 19:53:44 1101
原创 数据结构之图-有向图的拓扑排序(8)
DefinitionTopological sorting is useful in situations in which items or events must be arranged in a specific order. For example, topological sorting can model job scheduling.Modeling job schedules
2013-03-11 13:52:37 2914
原创 数据结构之图-无权图的最小生成树(7)
1 Unweighted Graphs For unweighted Graphs, a minimum spanning tree(MST) means that a graph with minimum number of edges to connect all the vertices.the number of edges E in a minimum spanning t
2013-03-11 13:15:24 2046
原创 数据结构之图- 图的表示方法(6)
Graphs is composed by vertices and edges. We can look at Internet as a graph, which webpage are vertices and hyperlinks are edges.Why doesn't the Java Collections API include a Graph implementat
2013-03-10 10:48:29 4086
原创 数据结构之图-图遍历(6)
1 PrefaceThere are many algorithm about graph, but traverse algorithm is the most important algorithm. For example, crawl all webpage from the Internet need used the traverse algorithm. There are tw
2013-03-09 13:35:13 2083
转载 Sorting External Files
Merge sort is suitable for sorting external data, because merge sort is the process divide big problem into small problems(divide and merge process, also called map and reduce process like in hadoop).
2013-03-06 23:03:33 990
原创 Use External Storage Process Big Data(1)
Problem:We discussed big data is that data can not fit in main memory(often called RAM, for Random Access Memory) all at once, how would you handle this situation?Solution:We can use Divide-Conq
2013-03-05 21:57:36 1525
原创 海量空间数据的快速检索架构
1、 背景 目前空间信息中信息检索的对象是数据的元数据,这些元数据分布在各个单位中,而这些元数据的总数目是非常巨大的),空间信息检索的目的就是如何在大数据中快速找到用户需要的数据信息。空间信息数据共享的本质个人认为是建立一个快速的、高效的搜索引擎或信息检索引擎,像google、百度等,所以可以借鉴传统搜索引擎的大数据处理技术解决空间信息领域中的检索问题。2、 传统空间信息检索
2013-03-04 23:38:35 4674 2
原创 Some advises about how to improve Google Chrome
Some advises about how to improve Google Chrome关于Google浏览器改进的几点建议ProblemToday I want to find a item which I just visited yesterday in bookmark "DataStructure & Algorithm ". So I open the b
2013-03-02 23:20:07 1192
Data.Structures.and.Algorithms.in.Java, (Robert Lafore).2nd.Ed
2013-02-25
Head First Design Patterns
2013-01-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人