- 博客(27)
- 资源 (2)
- 收藏
- 关注
原创 Mahout 0.8维护笔记
(0)类:org.apache.mahout.clustering.spectral.common.VectorMatrixMultiplicationJob方法:public static DistributedRowMatrix runJob(Path markovPath, Vector diag, Path outputPath) throws IOExcep
2014-03-27 11:00:14 1541
原创 UltraEdit个性化定制-Hive QL代码折叠、函数列表及自动补全
UltraEdit是程序员的完美情人,我就不赘述其强大易用了,一句话,谁玩谁知道。本文旨在帮助你个性化配置UE,以便在写Hive QL代码时能够更高效舒畅。具体而言,实现以下目的:* 对Hive QL代码实现折叠,效果如图1。图1或者像图2这样的:图2折叠后视图如3:图3* 在函数列表中列出Hive QL中的表名,点击时可以定位。
2014-02-25 09:58:58 13006 1
原创 分类器的相关概念
昨天,@人民网发了一条八卦微博,盘点“雨神”(@萧敬腾)是如何炼成的。微博称,网友统计发现,在@萧敬腾 近年12次主要行程中,有10次他的“现身”让当地下起了雨,下雨的概率为83.3%。图1这里,网友相当于是做了一个人工数据挖掘,用术语表示,就是构造了如下一个分类器:IF 萧敬腾有活动 THEN 当地下雨 ELSE 当地不下雨 END该分类器预测老萧举办个唱
2013-08-15 21:02:46 8135 4
原创 Mahout Spectral聚类
坑爹的Mahout 0.5!把源代码翻了个遍,修改了若干个bug,重编译了三个核心包,终于跑通了谱聚类(Spectral Clustering),先把代码放上来。以下约定:* $LOCAL表示本地数据存放目录* $HADOOP_MAHOUT表示hadoop集群的mahout输出目录* $MAHOUT_HOME表示本地mahout的安装目录数据准备:00.80
2013-08-10 19:26:03 5452 3
原创 Mahout K-means聚类
以下约定:* $LOCAL表示本地数据存放目录* $HADOOP_MAHOUT表示hadoop集群的mahout输出目录* $MAHOUT_HOME表示本地mahout的安装目录--上传数据hf -put $MAHOUT_HOME/test-data.csv \$HADOOP_MAHOUT/testdata--hadoop命令行执行kmeans clus
2013-08-08 16:35:23 6109 1
原创 Mahout Canopy聚类
读过孟岩的《理解矩阵》系列博文[1]~[3],其中的一段论述让我很受用:学习一门学问,最重要的是把握主干内容,迅速建立对于这门学问的整体概念,不必一开始就考虑所有的细枝末节和特殊情况,自乱阵脚[2]。本着这样的学习思路,我们按以下步骤来快速了解Mahout中怎么使用Canopy聚类。* Canopy Clustering是什么?* 输入数据的格式是什么?* 输出结果如何查看
2013-07-30 19:23:43 4342 1
翻译 使用MapReduce实现遗传算法
原文:Abhishek Verma等,Scaling Genetic Algorithm using MapReduce摘要:遗传算法在大规模问题的求解中得到越来越多的应用。传统的基于MPI的并行遗传算法需要知道机器架构的细节。另一方面,由Google提出的MapReduce可用于开发具有扩展性和容错能力的应用,是一个强大的抽象模型。本文演示了如何使用MapReduce模型来为遗传算法
2013-07-28 23:48:02 7816 10
原创 SAS主成分分析
同事讲主成分分析,举了这么个例子:就像你选女人,有身材、相貌两个指标,如果身材、相貌都很突出,那当然很好选择;但如果两个女人,一个身材突出,一个相貌出众,看着都很喜欢,那可如何是好!这个时候通过主成分分析,汇总出一个指标,这个指标可以一定程度上代替原来的身材、相貌,这时就可以排序做出选择了。这例子当然有很多缺陷,但至少指出了主成分分析的目的之一:减少决策变量数,也就是降维。主成分分析的另一个目
2013-07-28 20:18:50 55025 14
原创 Mahout 0.5部署
Mahout下载与安装1、下载Mahout。到地址[1]可以找到镜像地址。我们下载Mahout 0.5。请将mahout-distribution-0.5.tar.gz和mahout-distribution-0.5-src.zip都下载下来,前者是正式软件,后者是源文件,用于导入eclipse以便修改并重新编译所需要的包。2、在/home/user(你自己的用户名)目录下创建一个
2013-07-12 16:39:57 4647 6
原创 Notepad.cc
设想如下需求:在日常工作或生活中,你可能需要随手记录一个网址,一个电话号码,一家餐馆地址,一段交通方案备注……总之一个很简单很碎片的字符串,并且打算在另一台电脑(比如下班回家后用家里的电脑)或者未来的某个时刻重新获得这一段字符串,你会怎么做呢?你可能会打开邮箱,输入密码,新建邮件,把你要传递的内容复制进去,点击发送;然后到另一台电脑,打开邮箱,输入密码,接收邮件,获得字符串。你还可
2013-06-26 06:58:20 2291 2
原创 说说余额宝
6月13日,支付宝上线余额宝,该产品一经推出即在业界引起轩然大波。短短几天,虎嗅网上相关长篇分析文章即达到7篇;微博上的讨论更是多如牛毛。我关注了大部分文章、评论,有金融人执笔有互联网人附和,有贬有褒。我要说说我为什么如此推崇余额宝,并觉得她的模式是如此的美丽!这美丽简单地概括就是:(1)收益比活期存款高;(2)灵活度比定期存款好;(3)管理比银行理财容易;而且(4)风险有支付宝的信誉
2013-06-24 21:19:24 2838
原创 MapReduce实现大矩阵乘法
引言何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类别,
2013-06-09 19:25:24 45923 36
原创 MapReduce作业提交过程
hadoop jar [mainClass] args...上面这一行,是官方文档[1]给出的用于提交MapReduce作业的命令行。我们就从这一命令开始说起,研究一下当我们在SecureCRT或者XShell等终端将它提交后,系统依次发生了什么。为了方便说明,我们结合Hadoop(版本0.19.1)自带的WordCount样例进行解析,WordCount的功能是计算出一个或
2013-06-08 16:13:09 4566
原创 MapReduce实现join操作
前阵子把MapReduce实现join操作的算法设想清楚了,但一直没有在代码层面落地。今天终于费了些功夫把整个流程走了一遭,期间经历了诸多麻烦并最终得以将其一一搞定,再次深切体会到,什么叫从计算模型到算法实现还有很多路要走。数据准备首先是准备好数据。这个倒已经是一个熟练的过程,所要做的是把示例数据准备好,记住路径和字段分隔符。准备好下面两张表:(1)m_ys_lab
2013-05-30 19:50:44 22226 9
原创 Hadoop命令操作
查看某文件夹下所有文件大小并按降序排序:hf -dus /group/userdir/hive/* |sort -n-r-k2 > /home/username/output/result.txt或者hf -count/group/userdir/hive/* |sort -n -r -k3 >/home/username/output/result2.txt后者的输出列表是:
2013-05-02 10:06:28 1156
原创 Hive高级应用
假设有个表有两个字段key val1_val2_val3_val4_val5想把第二个字段以“_”为分隔符切割成多行,如下:key val1key val2key val3key val4key val5第二个字段包含的“_”不确定代码如下:selectcol1,col2_subfrom (--以下替换成性感的原始表select'
2013-04-24 15:45:51 2006
原创 Excel实战笔记
字符串提取有这样一列字符串,格式如下:source:14;discount:1000;startFee:3800;benefactor:我是虚构的nick;benefactorId:1125769573现在我们要把benefactor标签后面的值提取出来,比如上面这个字符串中提取出“我是虚构的nick”如果excel有正则表达式匹配函数,那么这当然很容易解决。可惜没有。
2013-04-23 19:50:41 957
原创 MapReduce简史
Google的经典论文2004年12月,Google公司发布MapReduce经典论文:来自Jeffrey Dean和Sanjay Ghemawat的“MapReduce: Simplified Data Processing on Large Clusters”,该文于2005年4月正式发表于国际会议OSDI,标志着Google的大规模数据处理系统MapReduce公开。(http:
2013-04-08 11:17:28 2006
原创 SAS频数统计
当一位数据分析师拿到一份崭新的数据时,他要做的第一件事很可能是了解其中关键指标的分布情况。频数统计是应对这一情况的最基本的分析工具。分析师通过创建频数统计表,获知某项指标各个或各段值所占的百分比,达到快速了解数据概况的目的。在数据量较少的情况下,强大的Excel可以以多种方式满足分析师的需求。但如果数据量达到百万级,则需要使用更为强大的分析工具。在本文中,我们介绍SAS的频数统计功能,这一功能是通
2013-04-07 08:23:50 17952
原创 SAS随机抽样
在统计研究中,针对容量无限或者容量很大以至于无法直接对其进行研究的总体,都是通过从中抽取一部分个体作为研究对象,以考察总体的特征。被抽取的部分个体称为该总体的一个样本。从总体中抽取样本的过程,称为抽样。 抽样包括随机抽样和非随机抽样。非随机抽样是从总体中抽取指定的个体,具有主观意向性,这里不做讨论。 随机抽样是按照随机原则,保证个体都有一定概率被抽取到的抽样方法。常见的随机抽样
2012-11-20 14:56:01 25841
原创 191亿的含义
2012年11月12日零点一过,所有关注双11的人都屏住了呼吸等待着最终数据的公布,等待着一个奇迹的诞生。191亿!其中天猫132亿,淘宝59亿。虽然没有过200亿,但这依然是一个让人疯狂而又绝望的数字。天猫的132亿是2011年(33.7亿)的将近4倍,比原定的100亿的目标高出32亿。据国家统计局公布的数据,全国消费品零售总额在每天500~600亿之间;淘宝天猫创造的191亿是其三分之一。
2012-11-12 22:29:12 2014
原创 Windows 7和Windows 8下安装SAS
本文讲解Windows 7和Windows 8下安装SAS 9.1.3的步骤。打开控制面板,选择程序:在程序和功能项下选择“运行为以前版本的Windows编写的程序”选择程序位置:选择“尝试建议的位置”点击“测试程序”选择语言,默认为“中文(简体)”单击确定,出现SAS安装界
2012-11-03 15:26:28 4215
原创 一个实例理解Java Reference
一个实例让你明白Java ReferenceJava Reference即Java的引用机制。当用类创建一个对象时,类中的成员变量被分配内存空间,这些内存空间称为该对象的实体,而对象中存放着引用,以确保实体由该对象操作使用。Java的所有对象都是引用,类似于C和C++中的指针。Java类的方法如果包含引用类型的参数,那么当该方法被调用时,向该方法参数传递的是传值变量的引用。不同于C和C++
2012-10-25 22:43:39 1570
原创 Hive join操作小结
本篇对Hive QL中join、left outer join、left semi join和full outer join等表连结操作作一简要总结。1、测试表准备首先准备三张测试表,内容分别为:hql_jointest_aidname1 a2 b3 c4 d5 e6 f7 g8 h
2012-10-25 22:11:41 26161 1
原创 Swarm安装与开发环境配置
如果你正在研究多智能体系统(Multi-Agent Systems,MAS),如果恰巧你有一点Java程序设计基础,如果更巧的是你对用Swarmfor Java开发MAS抱有浓厚的兴趣,那么请跟随我一起来搭建一个JDK+JCreator+Swarm的轻量级MAS开发环境吧。不过我们默认你已经安装好JDK和JCreator——没装好的话请自行查找相关资料并安装。关于JDK,我用的是JDK1.5,不过JDK6早已经发布了;关于JCreator,我用的同样是古董级的3.5版本,无他,习惯而已。对于Swarm就
2010-12-18 16:21:00 9017 14
原创 有趣的String
String类也许是Java Coders最早接触的类之一。我不算资深程序员,但也有好几年的Java Coding史了,至今还不得不常常感慨于String类带给我的神奇之旅。我认为这是一个非常有趣的类。说String有趣,是因为它构造的对象具有一些其他对象所没有的特征。我们都知道,创建String对象有两种方式:String strA = "Hello";String strA =
2010-12-17 23:19:00 1125
原创 天平称重谜题
前段时间抽空看了《说谎者悖论和汉诺塔游戏》([加拿大]马塞尔·丹尼斯著,程云琦译)一书,作者在第一个谜题“斯芬克斯之谜”中介绍了法国耶稣会诗人 Claude Gaspard Bachet de Méziriac(1581-1638)的一个经典谜题:若天平两端可以任意放置砝码,要称量从1磅到40磅的整磅重的糖,天平所需要的砝码个数最少是多少?换句话说,我们需要确定若干个读数互不相
2010-12-14 09:31:00 3190
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人