mark_yueye-CSDN博客

转载 Lease问题

经过查明原来是lease引发的问题。不过查问题的过程让我们耽误了很多修复故障的时间，很是不爽。起因：datanode和regionserver以及master同时挂掉现象：datanode重启后，regionserver重启不久，多台regionserver相继即挂掉，log显示：Html代码 org.apache.hadoop.hbase.regions

2013-11-25 12:30:02 1324

转载局部加权回归

局部加权紧接着上面的线性回归中参数求解来继续讲吧。还是以上面的房屋价格的预测，它的中心思想是在对参数进行求解的过程中，每个样本对当前参数值的影响是有不一样的权重的。比如上节中我们的回归方程为（这个地方用矩阵的方法来表示Ɵ表示参数，i表示第i个样本，h为在Ɵ参数下的预测值）：我们的目标是让最小，然后求出来Ɵ，再代入h中就可以得到回归方程了。但是如果类似以下的样本

2013-11-25 12:29:35 829

转载多元线性回归

1、多元线性回归模型假定被解释变量与多个解释变量之间具有线性关系，是解释变量的多元线性函数，称为多元线性回归模型。即 (1.1)其中为被解释变量，为个解释变量，为个未知参数，为随机误差项。被解释变量的期望值与解释变量的线性方程为： (1.2)称为多元总体线性回归方程，简称总体回归方程。对于组观测值，其方程组形式为： (1.3)即其矩阵形式为=+即

2013-11-25 12:29:06 5512 2

HMM三个问题

HMM有三个典型问题: 1.已知模型参数，计算某一特定输出序列的概率.通常使用forward算法解决. 2.已知模型参数，寻找最可能的能产生某一特定输出序列的隐含状态的序列.通常使用Viterbi算法解决. 3.已知输出序列，寻找最可能的状态转移以及输出概率.通常使用Baum-Welch算法以及Reversed Viterbi算法解决....

2013-11-24 22:51:21 665

转载 HBase replication使用

hbase-0.90.0的一个重要改进是引入了replication机制，使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善，但是今后必然会变得更加重要。hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和hlog来实现的。当请求发送给master cluster时，hlog日志放入hdfs的同时进入

2013-11-24 22:24:58 1513

转载 HBase 索引创建

本文参考了文“mysql索引背后的数据结构及算法原理”，之所以还要摘录，主要是为了形成hbase索引研究的开篇，弄明白什么索引的本质，如有版权问题，请及时通知。索引的本质索引是帮助mysql高效获取数据的数据结构。索引属于数据结构的一种。在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这个数据

2013-11-24 17:21:46 1356

转载 HBase Region级别二级索引

我们会经常谈及二级索引，这是对全表数据进行另外一种方式的组织存储，是针对table级别的。如果要为HBase上的表实现一个强一致性的二级索引，那么就无法逃避分布式事务，而这一直是用户最期待的功能。而即使只需要保证最终一致性，这个索引也并不好实现，因为你需要额外的表以存储过程数据，需要解决宕机恢复问题等撇开分布式事务，我们是否可以考虑对索引的要求进行降级，比如把Region看成是全表下的

2013-11-24 17:20:14 1992

转载 HBase快照

CDH是Cloudera的完全开源分布式Apache Hadoop及相关项目（包括Apache HBase）。CDH的当前版本（4.2）引入的一个HBase新特性最近加入到了主干中，允许用户对指定表进行快照。在CDH4.2之前，唯一能够备份或克隆表的方法就是使用复制/导出表或者在关闭表之后拷贝HDFS中所有的hfile。复制/导出是通过一系列工具调用MapReduce来扫描并复制表，这样会

2013-11-24 17:18:28 932

转载 HBase BlockCache

1. Cache 读写调用逻辑： hmaster.handleCreateTable->HRegion.createHRegion-> HRegion. initialize->initializeRegionInternals->instantiateHStore ->Store.Store->new CacheConfig(conf, family)-> CacheConfig.

2013-11-24 17:16:50 972

转载 HBase事务

众所周知，ACID是指原子性(Atomicity)，一致性(Consistency)，隔离性(Isolation)和持久性(Durability)。HBase对同一行数据的操作提供ACID保证。HBASE-3584支持多操作事务，HBASE-5229支持多行事务，但原理都是一样的。那么，HBase中的ACID是如何工作的呢？HBase采用MVCC来实现ACID，同时HBas

2013-11-24 17:15:04 5322

转载 HBase Master 启动

–>首先初始化HMaster–>创建一个rpcServer，其中并启动–>启动一个Listener线程，功能是监听client的请求，将请求放入nio请求队列，逻辑如下：–>创建n个selector，和一个n个线程的readpool，n由”ipc.server.read.threadpool.size”决定，默认为10–>读取每个请求的头和内容，将内容放入priorityQueue

2013-11-24 17:13:52 1510

转载 Stripe Compaction

借鉴于LevelDB、Cassandra的Compaction方法，https://issues.apache.org/jira/browse/HBASE-7667 提出了Stripe Compaction的方法。Motivation：1）过多Region会增大RS维护的开销，降低RS的读写性能。随着数据量的增大，在一定程度上增加Region个数，会提高系统的吞吐率。然而，RS上服务的

2013-11-24 17:11:34 949

转载 HBase Split

HBase 的 Split过程是一个较为重要的过程，牵扯到许多东西。 Client 1. HBaseAdmin.split 2. 判断split的是Region还是Table 3. 调用HBaseAdmin.split(final ServerName sn, final HRegionInfo hri,byte[] splitPoint) 4. PRC调用HRegionInt

2013-11-24 17:09:46 1050

论文 The Log-Structure Merge-Tree(LSM-tree)(http://www.google.com.my/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&ved=0CDoQFjAD&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10

2013-11-24 17:07:47 864

转载 HBase协处理器

1.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。比如，在旧版本的(2.灵感来源( Source of Inspration)HBase协处理器的灵感来自于Jeff Dean 09年的演讲( P66-67)。它根据该演讲实现了类似于bigtable的协处理器

2013-11-24 17:02:53 965

翻译 HBase学习资源

教程《HBase.Administration.Cookbook》中文版《HBase管理指南》《HBase in action》《HBase权威指南》Reference Guide 中文版中文参考指南 HBase近期的发展及实践.pdf小米hadoop/hbase微实践.pdfHBase相关项目opentsdb schema

2013-11-24 16:57:11 1049

转载 SVM

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。一、数学部分1.1二维空间支持向量机的典型应用是分类，用于解决这样的问题：有一些事物是可以被分类的，但是具体怎么分类的我们又说不清楚，比如说下图中三角的就是C1类，圆圈的就

2013-11-24 16:49:41 1018

转载 Aho-Corasick算法学习

1、概述Aho-Corasick自动机算法（简称AC自动机）1975年产生于贝尔实验室。该算法应用有限自动机巧妙地将字符比较转化为了状态转移。此算法有两个特点，一个是扫描文本时完全不需要回溯，另一个是时间复杂度为O(n)，时间复杂度与关键字的数目和长度无关。好了，我们先看下最原始的多模式匹配算法：主串T，n=strlen（T）。模式串Pi mi = strlen(pi)

2013-11-24 16:46:16 736

转载 Boyer-Moore算法

1、概述在用于查找子字符串的算法当中，BM（Boyer-Moore）算法是目前相当有效又容易理解的一种，一般情况下，比KMP算法快3-5倍。BM算法在移动模式串的时候是从左到右，而进行比较的时候是从右到左的。常规的匹配算法移动模式串的时候是从左到右，而进行比较的时候也是是从左到右的，基本框架是：[cpp]view plaincopyj = 0； w

2013-11-24 16:45:10 734

转载 Apriori和FPTree

Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法，处理的都是最简单的单层单维布尔关联规则。Apriori算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。是基于这样的事实：算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法，k-项集用于探索(k+1)-项集。首先，找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集

2013-11-24 16:43:10 1374

转载朴素贝叶斯与贝叶斯网络

贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性，如给定样本属于一个特定类的概率。贝叶斯定理是就是在给定的数据概率来表示未知的后验概率。比如已知某水果是红色的情况下，判断该水果有多大的概率是苹果，用数学符号表示就是(后验概率)，其中X表示“这个水果是红色的”，H表示“这个水果是苹果”。这个概率我们是不知道的，但是如果我们有大量的水果样本，就可以计算水果样本中的统计信息来逼近这个概率。

2013-11-24 16:40:18 980

转载模拟退火算法

一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一种简单的贪心搜索算法，该算法每次从当前解的临近解空间中选择一个最优解作为当前解，直到达到一个局部最优解。爬山算法实现很简单，其主要缺点是会陷入局部最优解，而不一定能搜索到全局最优解。如图1所示：假设C点为当前解，爬山算法搜索到A点这个局部最优解就会停止搜索，因为

2013-11-24 16:37:22 611

转载特征选择算法

1 综述(1)什么是特征选择特征选择 ( FeatureSelection )也称特征子集选择(Feature Subset Selection , FSS ) ，或属性选择( AttributeSelection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。 (2)为什么要做特征选择在机器学习的实际应用中，特征数量往往较多，其中可能存在

2013-11-24 16:35:51 1838

转载遗传算法编程

遗传算法 ( GA , Genetic Algorithm ) ，也称进化算法。遗传算法是受达尔文的进化论的启发，借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识　　作为遗传算法生物背景的介绍，下面内容了解即可：　　种群(Population)：生物的进化以群体的形式进行，这样的一个群体称为种群。　　个体

2013-11-24 16:35:01 1039

翻译神经网络编程

本文主要内容包括： (1) 介绍神经网络基本原理，(2)AForge.NET实现前向神经网络的方法，(3) Matlab实现前向神经网络的方法。第0节、引例本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里简要介绍一下I

2013-11-24 16:33:04 949

转载 BP 神经网络

BP（Back Propagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。一个神经网络的结构示意图如下所示。BP神经网络模型拓扑结构包括输入层（input）、隐层(hide

2013-11-24 16:29:38 919

转载深入Lucene索引机制

Lucene的索引里面存了些什么，如何存放的，也即Lucene的索引文件格式，是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候，我们会发现:Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此文件格式的过程。 Lucene的搜索过程，就是按照此文件格式将索引进去的信息读出来，然后计算每篇文档打分(score)的过程。

2013-11-20 18:19:33 1384

原创 “云计算将给中国带来1千万工作岗位”，我们准备好了吗？

在未来几年，2015年云计算将会带来1400万个工作岗位，其中大约有1000万在中国。我们要看看云计算带来的1.1万亿收入，在欧洲，预计到2020年2%的GDP将来自于云计算创新。第十五届中国国际高新技术成果交易会——新一代信息技术峰会17日在深圳市会展中心举行。亚洲云计算协会总裁达尔伯格表示，云计算和移动设备带来的革命一样影响巨大。在未来几年，2015年云计算将会带来1400万个工作岗位，其

2013-11-19 17:34:04 1225

“云计算将给中国带来1千万工作岗位”，我们准备好了吗？

在未来几年，2015年云计算将会带来1400万个工作岗位，其中大约有1000万在中国。我们要看看云计算带来的1.1万亿收入，在欧洲，预计到2020年2%的GDP将来自于云计算创新。第十五届中国国际高新技术成果交易会——新一代信息技术峰会17日在深圳市会展中心举行。亚洲云计算协会总裁达尔伯格表示，云计算和移动设备带来的革命一样影响巨大。在未来几年，2015年云计算将会带来1400万个工作岗位，...

2013-11-19 17:29:51 144

Restful入门实战演练

由于工作需要，研究了一下Rest.1.创建web应用，加入如下jar包。 2.创建Student实体 import javax.xml.bind.annotation.XmlRootElement;@XmlRootElement(name="student")public class Student { private int id; private Str...

2013-11-19 17:11:57 118

原创重看《中国合伙人》

程序让自己编的麻木了，直到有一天，看到了《中国合伙人》。。。（以下内容摘抄与互联网，红色的是最受感触的一些句子。很多是曾经明白的，但是又忘记了，现在是时候重温了。）1、想一千次，不如去做一次。华丽的跌倒，胜过无谓的徘徊。2、谁伤害过你，谁击溃过你，都不重要。重要的是谁让你重现笑容。3、用时间和心看人，而不是用眼睛。4、不要活在过去的回忆里。昨天的太阳，晒不干今天的衣裳！...

2013-11-17 11:45:57 96

原创重看《中国合伙人》

程序让自己编的麻木了，直到有一天，看到了《中国合伙人》。。。（以下内容摘抄与互联网，红色的是最受感触的一些句子。很多是曾经明白的，但是又忘记了，现在是时候重温了。）1、想一千次，不如去做一次。华丽的跌倒，胜过无谓的徘徊。2、谁伤害过你，谁击溃过你，都不重要。重要的是谁让你重现笑容。3、用时间和心看人，而不是用眼睛。4、不要活在过去的回忆里。昨天的太阳，晒不干今天的衣裳！5、

2013-11-16 21:26:12 956

大智慧

曾经看见一本书叫《大智慧》，想看，但买不起。一直在想，啥是智慧，那大智慧又是什么呢。一直在想。其实也一直拥有这个答案。还是我们农民人的那句话：实在比啥都好。读了很多书，智慧的、励志的、哲学的、管理的、军事的，不管用什么样的谋略去做事，只有这样的人是打不败的，他们往往是很一般，但是却是最成功的，这样的就是做人最成功的那些。事物的发展不是线性的，不能用单纯的因为所以解决问题。...

2013-11-16 20:55:04 178

索引压缩

建立索引是搜索引擎核心技术之一，建立索引的目的是能够快速的响应用户的查询。搜索引擎最常用的索引数据结构是倒排文档，倒排文档的原理其实相当简单。我们拿以下三篇文章作为代表来说明倒排文档，文章内容为： D1:“张钰小姐代表了中国广大淫民的根本利益” D2:”宋祖德先生代表了中国八卦文化的前进方向“ D3:“郭敬明代表了中国作家...

2013-11-16 15:44:15 127

编辑距离

1.Levenshtein distance(以下简称L氏距离)。此距离由Levenshtein 于1965年定义，在这个定义体系中有三种原子操作：insertion,deletion,substitution（出处见论文《BINARY CODES CAPABLE OF CORRECTING,DELETIONS,INSERTIONS AND REVERSALS》）；2.Damerau,F...

2013-11-15 19:00:39 142

原创编辑距离

1.Levenshtein distance(以下简称L氏距离)。此距离由Levenshtein 于1965年定义，在这个定义体系中有三种原子操作：insertion,deletion,substitution（出处见论文《BINARY CODES CAPABLE OF CORRECTING,DELETIONS,INSERTIONS AND REVERSALS》）；2.Damerau,F,J

2013-11-15 18:58:53 946

Solpe one

Slope One 算法试图同时满足这样的的 5 个目标：易于实现和维护：普通工程师可以轻松解释所有的聚合数据，并且算法易于实现和测试。运行时可更新的：新增一个评分项，应该对预测结果即时产生影响。高效率的查询响应：快速的执行查询，可能需要付出更多的空间占用作为代价。对初次访问者要求少：对于一个评分项目很少的用户，也应该可以获得有效的推荐。合理的准确性：与最准确的方法相比，...

2013-11-15 18:55:37 133

创建WebService时遇到的问题

今天在创建webService时遇到了一下问题： The service class "com.pera.spellcheck.SpellCheckSearcher" does not comply to one or more requirements of the JAX-RPC 1.1 specification, and may not deploy or fu...

2013-11-15 14:41:07 454

原创推荐系统概述

在推荐系统简介中，我们给出了推荐系统的一般框架。很明显，推荐方法是整个推荐系统中最核心、最关键的部分，很大程度上决定了推荐系统性能的优劣。目前，主要的推荐方法包括：基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐（Content-basedRecommendation）是信息过滤技术的延续与发展，它是建立在项目的内容信息上...

2013-11-15 12:54:56 100

矩阵分解

LU分解一个可逆矩阵可以进行LU分解当且仅当它的所有子式都非零。如果要求其中的L矩阵（或U矩阵）为单位三角矩阵，那么分解是唯一的。同理可知，矩阵的LDU可分解条件也相同，并且总是唯一的。即使矩阵不可逆，LU仍然可能存在。实际上，如果一个秩为k的矩阵的前k个顺序主子式不为零，那么它就可以进行LU分解，但反之则不然。目前，在任意域上一个方块矩阵可进行LU分解的充要条件已...

2013-11-14 20:58:18 225

orange算法大全

MongoDB 参考文档

Cassandra权威指南(中文版)

SQL和NOSQL融合

统计学习基础：数据挖掘、推理与预测

jfreechart API

空空如也