2013年09月_小狼_百度

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载数学之美番外篇：平凡而又神奇的贝叶斯方法

概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候，最喜欢到城里的计算机书店里面去闲逛，一逛就是好几个小时；有一次，在书店看到一本书，名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想，一个方法能够专门写出一本书来，肯定很牛逼。后来，我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。——题记目录0. 前言 1. 历史 1.1

2013-09-23 18:56:15 965

转载 simhash与重复信息识别

在工作学习中，我往往感叹数学奇迹般的解决一些貌似不可能完成的任务，并且十分希望将这种喜悦分享给大家，就好比说：“老婆，出来看上帝”…… 随着信息爆炸时代的来临，互联网上充斥着着大量的近重复信息，有效地识别它们是一个很有意义的课题。例如，对于搜索引擎的爬虫系统来说，收录重复的网页是毫无意义的，只会造成存储和计算资源的浪费；同时，展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可

2013-09-18 18:08:54 793

转载单链表之快排

http://fengchangjian.com/?p=1330快排最核心的思想就是划分，确定一个枢轴元素(pivot)，每一趟划分的目的就是把待排序列分为两部分，前一部分比枢轴小(序列A)，后一部分比枢轴大(序列B)。经过一趟划分之后序列变为：{A} pivot {B}。以下是具体步骤：1、确定每一次划分的枢轴元素为当前待排序列的头节点。2、设置Slow和Fast两个游标，Slow指

2013-09-18 17:36:54 917

转载 Hadoop DistributedCache使用及原理

概览DistributedCache 是一个提供给Map/Reduce框架的工具，用来缓存文件（text, archives, jars and so on）文件的默认访问协议为(hdfs://). DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前。文件在每个Job中只会被拷贝一次，缓存的归档文件会被在Slave节点中

2013-09-17 17:55:36 21195 2

转载 hive中简单介绍分区表(partition table)，含动态分区(dynamic partition)与静态分区(static partition)

hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段，而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表：create table partition_test(member_id string,name string)partition

2013-09-17 12:09:31 4425

转载对现有Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围，从而提高速度。分区分为两种：静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时，是手动输入分区名称，还是通过数据来判断数据分区。对于大数据批量导入来说，显然采用动态分区更为简单方便。- 对现存hive表的分区首先，新建一张我们需要的分区以后的表cre

2013-09-17 11:18:35 23726

转载分类算法之朴素贝叶斯分类(Naive Bayesian classification)

原文：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html0、写在前面的话我个人一直很喜欢算法一类的东西，在我看来算法是人类智慧的精华，其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中，并解决了实际问题后，那种快感更是我在其它地方体会不到的。

2013-09-16 18:42:25 881

转载 shell的一些问题

1、bc中的scaleecho "scale=0;13 * 0.6 "|bcecho "scale=0;13 * 0.6 / 1"|bc -lJared Liu: bc做乘法是不受scale变量影响的，想解决这个问题就是第二种trick吧2、bc的小数运算和四舍五入echo "scale=2;2/3"|bcawk BEGIN'{printf "%.2f\n", 2/3}'

2013-09-14 11:20:35 825

转载 shell中用bc进行浮点运算

Bash 不能处理浮点运算, 并且缺乏特定的一些操作,这些操作都是一些重要的计算功能.幸运的是, bc 可以解决这个问题.bc 不仅仅是个多功能灵活的精确的工具, 而且它还提供许多编程语言才具备的一些方便的功能. 因为它是一个完整的 UNIX 工具, 所以它可以用在管道中, bc 在脚本中也是很常用的. 这里有一个简单的使用 bc 命令的模版可以用来在计算脚本中的变量. 用在命令替换中.

2013-09-14 10:51:16 1019

转载优秀程序员不得不知道的20个位运算技巧

位运算目录(?)[+]一提起位运算，人们往往想到它的高效性，无论是嵌入式编程还是优化系统的核心代码，适当的运用位运算总是一种迷人的手段，或者当您求职的时候，在代码中写入适当的位运算也会让您的程序增加一丝亮点，最初当我读《编程之美》求“1的数目”时，我才开始觉得位运算是如此之美，后来读到《Hacker's Delight》，感慨到Henry S.Warren把位运算运用的如此神

2013-09-05 16:03:29 717

转载位操作基础篇之位操作全面总结

Title: 位操作基础篇之位操作全面总结Author: MoreWindowsE-mail: morewindows@126.comKeyWord: C/C++ 位操作位操作技巧判断奇偶交换两数变换符号求绝对值位操作压缩空间筛素数位操作趣味应用位操作笔试面试位操作篇共分为基础篇和提高篇，基础篇主要对位操作进行全面总结，帮助大家梳

2013-09-05 11:57:11 777

转载【白话经典算法系列之十二】数组中只出现1次的两个数字(百度面试题)

系列文章地址：http://blog.csdn.net/MoreWindows/article/category/859207首先来看题目要求：在一个数组中除两个数字只出现1次外，其它数字都出现了2次，要求尽快找出这两个数字。考虑下这个题目的简化版——数组中除一个数字只出现1次外，其它数字都成对出现，要求尽快找出这个数字。这个题目在之前的《位操作基础篇之位操作全面总结》中的“

2013-09-04 19:14:45 917

转载从B树、B+树、B*树谈到R 树

磁盘数据结构存储tree数据库目录(?)[+]从B 树、B+ 树、B* 树谈到R 树作者：July、weedge、Frankie。编程艺术室出品。说明：本文从B树开始谈起，然后论述B+树、B*树，最后谈到R 树。其中B树、B+树及B*树部分由weedge完成，R 树部分由Frankie完成，全文最终由July统稿修订完成。出处：http://blog.csdn.n

2013-09-04 18:02:47 699

转载从几幅架构图中偷得半点海量数据处理经验

mapreduce分布式计算facebook框架产品搜索引擎目录(?)[+] （注：本文只是简简单单的截几幅图而已，要想更深入的学习和了解hadoop框架和mapreduce模式，或者对淘宝的数据魔方感兴趣的话，尽可参考此文：从Hadhoop框架与MapReduce模式中谈海量数据处理。）最近对海量数据处理发生了不小的兴趣，

2013-09-04 17:37:05 679

转载算法系列-计数排序

计数排序是一种算法复杂度 O(n) 的排序方法，适合于小范围集合的排序。比如100万学生参加高考，我们想对这100万学生的数学成绩（假设分数为0到100）做个排序。我们如何设计一个最高效的排序算法。本文不光给出计数排序算法的传统写法，还将一步步深入讨论算法的优化，直到时间复杂度和空间复杂度最优。先看看计数排序的定义Counting sort (sometimes referred to a

2013-09-04 15:42:52 649

转载算法总结系列之六: 桶排序(Bucket Sort)

桶排序是另外一种以O(n)或者接近O(n)的复杂度排序的算法. 它假设输入的待排序元素是等可能的落在等间隔的值区间内.一个长度为N的数组使用桶排序, 需要长度为N的辅助数组. 等间隔的区间称为桶, 每个桶内落在该区间的元素. 桶排序是基数排序的一种归纳结果算法的主要思想: 待排序数组A[1...n]内的元素是随机分布在[0,1)区间内的的浮点数.辅助排序数组B[0....n-1]的每一个

2013-09-04 15:00:56 1041

转载算法总结系列之五: 基数排序(Radix Sort)

基数排序是非比较排序算法,算法的时间复杂度是O(n). 相比于快速排序的O(nlgn),从表面上看具有不小的优势.但事实上可能有些出入,因为基数排序的n可能具有比较大的系数K.因此在具体的应用中,应首先对这个排序函数的效率进行评估.基数排序的主要思路是,将所有待比较数值(注意,必须是正整数)统一为同样的数位长度,数位较短的数前面补零. 然后, 从最低位开始, 依次进行一次稳定排序(我们常用上一

2013-09-04 14:44:57 945

转载三种线性排序算法计数排序、桶排序与基数排序

[非基于比较的排序]在计算机科学中，排序是一门基础的算法技术，许多算法都要以此作为基础，不同的排序算法有着不同的时间开销和空间开销。排序算法有非常多种，如我们最常用的快速排序和堆排序等算法，这些算法需要对序列中的数据进行比较，因为被称为基于比较的排序。基于比较的排序算法是不能突破O(NlogN)的。简单证明如下：N个数有N!个可能的排列情况，也就是说基于比较的排序算法的判定树有N!个叶

2013-09-04 14:29:37 791

转载白话经典算法系列之七堆与堆排序

堆堆排序数据结构白话经典算法算法目录(?)[+] 堆排序与快速排序，归并排序一样都是时间复杂度为O(N*logN)的几种常见排序方法。学习堆排序前，先讲解下什么是数据结构中的二叉堆。二叉堆的定义二叉堆是完全二叉树或者是近似完全二叉树。二叉堆满足二个特性：1．父结点的键值总是大于或等于（小于或等于）任何一个子节点的键值。2．每个结点的左子树和右子树都是一个

2013-09-04 11:50:52 734

转载白话经典算法系列之五归并排序的实现

归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。首先考虑下如何将将二个有序数列合并。这个非常简单，只要从比较二个数列的第一个数，谁小就先取谁，取了后就在对应数列中删除这个数。然后再进行比较，如果有数列为空，那直接将另一个数列的数据依次取出即可。[cpp] view plaincopy//

2013-09-04 11:37:52 608

转载教你如何迅速秒杀掉：99%的海量数据处理面试题

教你如何迅速秒杀掉：99%的海量数据处理面试题作者：July出处：结构之法算法之道blog前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名，:-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结。

2013-09-03 19:36:05 1038

转载并查集(Union-Find)算法介绍

本文主要介绍解决动态连通性一类问题的一种算法，使用到了一种叫做并查集的数据结构，称为Union-Find。更多的信息可以参考Algorithms 一书的Section 1.5，实际上本文也就是基于它的一篇读后感吧。原文中更多的是给出一些结论，我尝试给出一些思路上的过程，即为什么要使用这个方法，而不是别的什么方法。我觉得这个可能更加有意义一些，相比于记下一些结论。

2013-09-03 18:19:20 977

转载 MySQL索引背后的数据结构及算法原理

摘要本文以MySQL数据库为研究对象，讨论与数据库索引相关的一些话题。特别需要说明的是，MySQL支持诸多存储引擎，而各种存储引擎对索引的支持也各不相同，因此MySQL数据库支持多种索引类型，如BTree索引，哈希索引，全文索引等等。为了避免混乱，本文将只关注于BTree索引，因为这是平常使用MySQL时主要打交道的索引，至于哈希索引和全文索引本文暂不讨论。文章主要内容分为三个部分。第

2013-09-02 19:13:10 802

转载从Trie树（字典树）谈到后缀树

引言咱们先来看一道面试题：一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。之前在此文：海量数据处理面试题集锦与Bit-map详解中给出的参考答案：用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平均长度），然后是找出出现最频繁的前10个词。也可以用堆来实现（具体的操作可参考第三章、寻找最小的k个数），

2013-09-02 14:34:50 1531