2014年06月_yongjian_luo

12月 11月 10月 09月 08月 07月 06月 05月 03月 02月 01月

转载 Python多进程Pool相关函数<转>

Pool相关函数 1、apply(func[, args[, kwds]]) apply用于传递不定参数，同python中的apply函数一致（不过内置的apply函数从2.3以后就不建议使用了），主进程会阻塞于函数。主进程的执行流程同单进程一致。 2、apply_async(func[, args[, kwds[, callback]]]) 与apply用法

2014-06-30 22:08:18 635

转载 python中multiprocessing.pool函数介绍<转>

python自2.6开始提供了多进程模块multiprocessing，这里主要是介绍multiprocessing下的Pool的几个函数一 apply(func[, args[, kwds]]) apply用于传递不定参数，同python中的apply函数一致（不过内置的apply函数从2.3以后就不建议使用了），主进程会阻塞于函数。 for x in gen_list(l)

2014-06-30 21:06:07 2972

转载 Python多进程并发操作中进程池Pool的应用<转>

在利用Python进行系统管理的时候，特别是同时操作多个文件目录，或者远程控制多台主机，并行操作可以节约大量的时间。当被操作对象数目不大时，可以直接利用multiprocessing中的Process动态成生多个进程，10几个还好，但如果是上百个，上千个目标，手动的去限制进程数量却又太过繁琐，这时候进程池Pool发挥作用的时候就到了。 Pool可以提供指定

2014-06-30 18:21:56 719

转载 MapReduce中的自定义多目录/文件名输出<转>

最近考虑到这样一个需求：需要把原始的日志文件用hadoop做清洗后，按业务线输出到不同的目录下去，以供不同的部门业务线使用。这个需求需要用到MultipleOutputFormat和MultipleOutputs来实现自定义多目录、文件的输出。需要注意的是，在hadoop 0.21.x之前和之后的使用方式是不一样的： hadoop 0.21 之前的API 中有 org

2014-06-27 18:37:03 1421

转载分类算法--贝叶斯分类法（Maprdecue实现）代码实现<转>

================================input.txt======================================= youth high no fair no youth high no excellent no middle high no fair yes senior

2014-06-27 18:27:40 744

转载分类算法--贝叶斯分类法（Maprdecue实现）<转>

贝叶斯是一个很有用的算法，可以用在【分词】、【拼写检查】、【分类】、【模式识别】等领域。附件是基于贝叶斯的简单实现。如果需要有实际需要可以找我进行测试。贝叶斯分类是统计学分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naïve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，且方法简单、

2014-06-27 18:26:56 623

转载数据挖掘--kmeans聚类算法mapreduce实现代码<转>

==================cluster.txt=========================== A 2 2 B 2 4 C 4 2 D 4 4 E 6 6 F 6 8 G 8 6 H 8 8 ==================cluster.center.conf=

2014-06-27 18:26:04 1080

转载逻辑回归（LR）算法java实现<转>

按照机器学习实战的python代码，用java重写LR的梯度上升算法： package com.log; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.io.File; import java.util.Ar

2014-06-27 18:24:34 2751 1

转载二次排序Mapreduce --SecondSort<转>

输入数据： 20 21 50 51 50 52 50 53 50 512 50 522 50 53 530 54 40 511 20 53 20 522 60 56 60 57 统计第一列数据出现的次数，结果为： -------------------------------------

2014-06-27 18:24:28 697

转载 Hadoop的Partitioner使用实例2<转>

如何使用Hadoop的Partitioner Hadoop里面的MapReduce编程模型，非常灵活，大部分环节我们都可以重写它的API，来灵活定制我们自己的一些特殊需求。今天散仙要说的这个分区函数Partitioner，也是一样如此，下面我们先来看下Partitioner的作用：对map端输出的数据key作一个散列，使数据能够均匀分布在各个reduce上进行后续操作，避免产生热点区

2014-06-27 18:21:29 923

转载 Hadoop Partition使用实例<转>

1、为何使用Partitioner，主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。 2、结果能够直观，同时做到对数据结果的简单的统计分析。 1、输入的数据文件内容如下(1条数据内容少，1条数据内容超长，3条数据内容正常)： kaka 1 28 hua 0 26 chao 1 tao 1

2014-06-27 18:16:18 675

转载 Hadoop multipleoutputs使用<转>

package com.loganalysis; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import o

2014-06-27 18:13:01 622

转载贝叶斯算法Hadoop实现<转>

/** * 找到抽样用户的特征,得到每个特征的概率 * 输入：属性1 属性2 属性3 属性4 类别 * 命令：hadoop jar recommend_cf.jar com.funshion.machine.bayes.Bayes2 /dw/logs/user/xincl/bayes.txt /dw/logs/recommend/result/machine/Baye

2014-06-27 18:11:11 1025

转载主题模型-LDA浅析<转>

上个月参加了在北京举办SIGKDD国际会议，在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型，感觉这个模型的应用挺广泛的，会后抽时间了解了一下LDA，做一下总结：（一）LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少

2014-06-19 16:28:10 575

转载 Hive中的LEFT SEMI JOIN<转>

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。 Hive 当前没有实现 IN/EXISTS 子查询，所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是， JOIN 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

2014-06-16 17:01:00 705

转载 Vim 快捷键整理<转>

一、移动光标 1、左移h、右移l、下移j、上移k 2、向下翻页ctrl + f，向上翻页ctrl + b 3、向下翻半页ctrl + d，向上翻半页ctrl + u 4、移动到行尾$，移动到行首0（数字），移动到行首第一个字符处^ 5、移动光标到下一个句子），移动光标到上一个句子（ 6、移动到段首{，移动到段尾} 7、移动到下一个词w，移动到上一个词b

2014-06-13 17:43:41 544

转载 Hive排序<转>

order by order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict; order b

2014-06-10 17:01:38 562

转载利用word2vec对关键词进行聚类<转>

继上次提取关键词之后，项目组长又要求我对关键词进行聚类。说实话，我不太明白对关键词聚类跟新闻推荐有什么联系，不过他说什么我照做就是了。按照一般的思路，可以用新闻ID向量来表示某个关键词，这就像广告推荐系统里面用用户访问类别向量来表示用户一样，然后就可以用kmeans的方法进行聚类了。不过对于新闻来说存在一个问题，那就量太大，如果给你十万篇新闻，那每一个关键词将需要十万维的向量表示，随着新闻

2014-06-04 18:23:53 992

clementine的中文教程

clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程

2013-11-18

clementine基础培训一

2013-11-18

Hbase入门与使用

2013-07-23

Hadoop_eclipse-plugin编译方法

2012-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人