Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!...

ganglia学习1之ganglia集群版搭建(支持hadoop和spark)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.4,ganglia-3.6.1系统:ubuntu 14.041.理解1.1 ganglia的概述    ...

2016-11-09 15:48:05

阅读数 1235

评论数 0

spark源码解读4之SortByKey

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解1.1 需求使用spark的时候会经常使用sortBykey,比如wordCount后需要排序,可以使用s...

2016-11-06 18:58:35

阅读数 1185

评论数 0

spark源码解读3之RDD中top源码解读

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解输出读取中常用到topK算法,RDD也提供了top方法。特别是RDD过大时,要慎用RDD的collect方...

2016-11-04 19:51:14

阅读数 1739

评论数 0

spark源码解读2之水塘抽样算法(Reservoir Sampling)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解  问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?  首先想到...

2016-11-04 19:51:02

阅读数 1816

评论数 0

spark源码解读1之Partitioner

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解Partitioner类Partitioner类是用于处理key-value类型的RDD,根据...

2016-11-04 19:50:46

阅读数 1638

评论数 0

Spark入门学习记录之SparkLearning

为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/573...

2016-05-17 22:34:00

阅读数 3297

评论数 2

SparkLearning博客模版

更多代码请见:https://github.com/xubo245/SparkLearning 1解释 2.代码: 3.结果: 参考 【1】 http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html ...

2016-05-03 19:15:34

阅读数 474

评论数 0

Apache CarbonData学习资料汇总

CarbonData Learning Materials 1. introduction Apache CarbonData is an indexed columnar data store solution for fast analytics on big data platform,...

2018-11-22 12:02:27

阅读数 228

评论数 0

Install tensorflow and run hello world in MacBook pro : MacOS

Install tensorflow and run hello world in MacBook pro / MacOS install tensorflow localhost:git xubo$ pip3 install tensorflow Collecting tensorflow ...

2018-10-20 23:45:37

阅读数 99

评论数 0

集群节点间数据分发dispath.sh

!/usr/bin/env bash if [ $# -ne 1 ]; then echo “Usage: dispath.sh filename” exit 1 fi cur_dir=(cd"(cd"(cd &...

2018-06-06 12:07:52

阅读数 175

评论数 0

基因数据处理123之SSW代码不正确,到时比SparkSW时间长

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 由于要生成新的score matrix:blosum50,第一次使用静态方法,直接传给align,到时每次运行都需要进行一次score matrix的计算,而这个是将blosum50的矩阵转换...

2018-06-06 09:02:49

阅读数 170

评论数 0

基因数据处理122之SSW和SparkSW评分不一致,query为Q9

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 RT,但是顺序一致 2.代码: hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/SparkSW20161114/alluxio...

2018-06-06 09:02:11

阅读数 156

评论数 0

基因数据处理121之SSW的score matrix调整,使得与SparkSW评分一致

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 SSW的评分矩阵是128*128的,是按char的int值来进行计算的。而blosum50是蛋白质的,而且不是按ABC顺序来的,所以需要转换。 java中无法运行128*128的String...

2018-06-06 09:01:22

阅读数 138

评论数 0

基因数据处理120之scala调用SSW在linux下运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 先有java提供转换,使用jni调用c 然后scala调用java 2.代码: 2.1 java: package ssw; /** * Created by xubo o...

2018-06-06 09:00:04

阅读数 112

评论数 0

基因数据处理119之java调用SSW在linux下运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 测试自带Example: xubo@xubo:~/xubo/tools/Complete-Striped-Smith-Waterman-Library/src$ scala -Djava....

2018-06-03 00:05:44

阅读数 114

评论数 0

基因数据处理118之SSW运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 SSW是一个更快的SW算法,并且提供了c语言lib和java的调用 代码: https://github.com/mengyao/Complete-Striped-Smith-Waterm...

2018-06-03 00:05:20

阅读数 130

评论数 0

基因数据处理117之重新多次运行SparkBWA Yarn集群

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 重新运行,跟换了文件地址 后来终端,需要运行其他的 2.代码: hadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi s...

2018-06-03 00:03:54

阅读数 102

评论数 0

基因数据处理116之重新运行SparkBWA Yarn集群模式

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 很久没运行SparkBWA了,系统文件有点多,重新运行。 2.代码: end hadoop@Master:~/disk2/xubo/project/alignment/sparkBW...

2018-06-03 00:03:32

阅读数 119

评论数 0

基因数据处理115之重新运行SparkBWA本地模式

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.记录 hadoop@Master:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:>...

2018-06-03 00:02:37

阅读数 209

评论数 0

基因数据处理114之BWA建立全基因组索引成功

运行记录 hadoop@Mcnode5:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa_index] Pack FASTA... 33.1...

2018-06-03 00:01:56

阅读数 686

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭