自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!

  • 博客(513)
  • 资源 (25)

原创 ganglia学习1之ganglia集群版搭建(支持hadoop和spark)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.4,ganglia-3.6.1系统:ubuntu 14.041.理解1.1 ganglia的概述      Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Gan

2016-11-09 15:48:05 1666

原创 spark源码解读4之SortByKey

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解1.1 需求使用spark的时候会经常使用sortBykey,比如wordCount后需要排序,可以使用sortBy,也可以先map然后再sortByKey,soerBy也是调用SortByKey1.2 源码S

2016-11-06 18:58:35 1820

原创 spark源码解读3之RDD中top源码解读

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解输出读取中常用到topK算法,RDD也提供了top方法。特别是RDD过大时,要慎用RDD的collect方法,建议使用take和top方法。如果要有序,可以使用top方法。1.1 定义 def top(num

2016-11-04 19:51:14 2168

原创 spark源码解读2之水塘抽样算法(Reservoir Sampling)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解  问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?  首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获

2016-11-04 19:51:02 2835

原创 spark源码解读1之Partitioner

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解Partitioner类Partitioner类是用于处理key-value类型的RDD,根据key进行元素划分。Partitioner是一个抽象类。只有两个方法:numPartitions和get

2016-11-04 19:50:46 2112

原创 Spark入门学习记录之SparkLearning

为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/5730447 SparkLearning代码和数据:https://github.com/xubo245/

2016-05-17 22:34:00 3780 1

原创 SparkLearning博客模版

更多代码请见:https://github.com/xubo245/SparkLearning1解释2.代码:3.结果:参考【1】 http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html【2】https://github.com/xubo245/Sp

2016-05-03 19:15:34 679

原创 通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code review

通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code reviewGithub:git fetch origin pull/3188/head:pr31883188是PR的idhttps://github.com/apache/carbondata/pull/3188Gitlab:git pull remo...

2019-08-17 10:39:50 2801

原创 read traffic light image(4138 images) from whole dataset(10w+) to obs

Applicationread traffic light image(4138 images) from whole dataset(10w+) to obsPrepare:Download data from reference[2]start jupter, import pycocoDemo.ipynb localhost:PythonAPI xubo$ jupyter ...

2019-04-10 09:58:22 501

原创 Share Android 8.0 network to Mac High Sierra 10.13.3 by horndis

Share Android 8.0 network to Mac High Sierra 10.13.3 by horndisI can confirm Horndis works with Honor V10 on High Sierra 10.13.3. Here’s a quick guide:brew cask install horndisYou might have to...

2019-03-18 23:17:42 653

原创 Apache CarbonData学习资料汇总

CarbonData Learning Materials1. introductionApache CarbonData is an indexed columnar data store solution for fast analytics on big data platform, e.g.Apache Hadoop, Apache Spark, etc.1.1 官网: http:...

2018-11-22 12:02:27 1381

原创 Install tensorflow and run hello world in MacBook pro : MacOS

Install tensorflow and run hello world in MacBook pro / MacOSinstall tensorflowlocalhost:git xubo$ pip3 install tensorflowCollecting tensorflow Cache entry deserialization failed, entry ignored ...

2018-10-20 23:45:37 616

原创 集群节点间数据分发dispath.sh

!/usr/bin/env bashif [ $# -ne 1 ]; then echo “Usage: dispath.sh filename” exit 1 ficur_dir=(cd"(cd"(cd "(dirname “$1”)”; pwd) for dst in {1..50} doscp -r $1 emr-worker-$dst:$cur_di...

2018-06-06 12:07:52 627

原创 基因数据处理123之SSW代码不正确,到时比SparkSW时间长

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释由于要生成新的score matrix:blosum50,第一次使用静态方法,直接传给align,到时每次运行都需要进行一次score matrix的计算,而这个是将blosum50的矩阵转换成128*128的矩阵,当计算Q0,即8个字符串的query时,显然时间占比大,本来序列比对时间就不长...

2018-06-06 09:02:49 449

原创 基因数据处理122之SSW和SparkSW评分不一致,query为Q9

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释RT,但是顺序一致2.代码:hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/SparkSW20161114/alluxio-1.3.0$ vi sparkSWSSWQ10.sh dir=$(ls -l query/* |...

2018-06-06 09:02:11 389

原创 基因数据处理121之SSW的score matrix调整,使得与SparkSW评分一致

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW的评分矩阵是128*128的,是按char的int值来进行计算的。而blosum50是蛋白质的,而且不是按ABC顺序来的,所以需要转换。java中无法运行128*128的String矩阵,所以需要提供blosum的转换2.代码: public static int[...

2018-06-06 09:01:22 376

原创 基因数据处理120之scala调用SSW在linux下运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释先有java提供转换,使用jni调用c然后scala调用java2.代码:2.1 java:package ssw;/** * Created by xubo on 2016/11/25. */public class SSW { public sta...

2018-06-06 09:00:04 329

原创 基因数据处理119之java调用SSW在linux下运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释测试自带Example:xubo@xubo:~/xubo/tools/Complete-Striped-Smith-Waterman-Library/src$ scala -Djava.library.path=. -cp SparkSW.jar ssw.ExampleAligning...

2018-06-03 00:05:44 392

原创 基因数据处理118之SSW运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW是一个更快的SW算法,并且提供了c语言lib和java的调用代码:https://github.com/mengyao/Complete-Striped-Smith-Waterman-Library论文:Zhao, M., et al. (2013). "SSW Lib...

2018-06-03 00:05:20 470

原创 基因数据处理117之重新多次运行SparkBWA Yarn集群

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释重新运行,跟换了文件地址后来终端,需要运行其他的2.代码:hadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi sparkBWA.sh for j in 10000 100000 1000000 1000000...

2018-06-03 00:03:54 349

原创 基因数据处理116之重新运行SparkBWA Yarn集群模式

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释很久没运行SparkBWA了,系统文件有点多,重新运行。2.代码:endhadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi g38L100c100000Nhs20Paired12SparkBWAYarnPartit...

2018-06-03 00:03:32 332

原创 基因数据处理115之重新运行SparkBWA本地模式

更多代码请见:https://github.com/xubo245基因数据处理系列1.记录hadoop@Master:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:> (...

2018-06-03 00:02:37 516

原创 基因数据处理114之BWA建立全基因组索引成功

运行记录hadoop@Mcnode5:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa_index] Pack FASTA... 33.14 sec[bwa_index] Construct BWT for the packed sequ...

2018-06-03 00:01:56 2836

原创 基因数据处理113之对avocado识别的SparkBWA变异数据进行疾病分析_

(一)问题问题1:avocado数据读取:avocado存到磁盘是:RDD[Genotype]val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, stats).flatMap(variantContext => variantContext.genotypes) // sav...

2018-06-03 00:01:41 202

原创 基因数据处理112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法

前面一片已经讲了遇到的问题,之前也遇到过:基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null) http://blog.csdn.net/xubo245/article/details/51525241解决办法:在读入的sam/bam/adam数据进行判定,如果RecordGroup等数据为...

2018-06-03 00:01:24 301

原创 基因数据处理111之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常

脚本:hadoop@Master:~/xubo/project/callVariant$ cat runBBg38L50c100000Nhs20Paired12YarnT201606252236LocalNopartition.sh #!/usr/bin/env bash spark-submit \--class org.gcdss.cli.callVarian...

2018-06-03 00:01:09 349

原创 基因数据处理110之批量测试SparkBWA和CS-bwamem算法

1.总的脚本 hadoop@Master:~/xubo/project/alignment$ cat runSparkBWAAndCsbwamem.sh echo "start sparkBWA" ./sparkBWA/sparkBWA.sh echo "startCsbwamem algin" ./cs-bwamem/csbwamemAlign.s...

2018-06-03 00:00:50 200

原创 基因数据处理109之SparkBWA运行成功的部分log

数据来自: http://219.219.220.149:18080/history/application_1466866953605_0001/executors/http://219.219.220.248:8042/node/containerlogs/container_1466866953605_0001_01_000003/hadoop/stderr/?start=0S...

2018-06-02 23:59:50 280

原创 基因数据处理107之cs-bwamem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired1T20160625)

1.upload:hadoop@Master:~/xubo/project/alignment/cs-bwamem$ cat align.sh #spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-...

2018-06-02 23:58:15 216

原创 基因数据处理106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)

脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat g38L100c10000000Nhs20Paired12Bwamem.sh echo "start"startTime4=`date +"%s.%N"` time4=`date +"%Y%m%d%H%M%S"` #spark-submit --cla

2018-01-11 00:45:49 508

原创 基因数据处理105之SparkBWAYarn模式运行1000万条paired-reads实例g38L100c10000000Nhs20Paired12YarnPartition

1.数据生成:art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired位置:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ pwd/home/hadoop/x

2018-01-11 00:45:34 298

原创 基因数据处理104之SparkBWAMaster文件得到空文件,中间sam文件找不到

脚本1:spark-submit --class SparkBWA \--master spark://219.219.220.149:7077 \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--driver-java-options

2018-01-11 00:45:18 399

原创 基因数据处理103之SparkBWAYarn模式运行100万条paired-reads实例

脚本:spark-submit --class SparkBWA \--master yarn-client \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--archives ./bwa.zip \SparkBWA.jar \-al

2018-01-11 00:44:58 294

原创 基因数据处理102之SparkBWA本地运行100万条paired-reads实例

脚本:spark-submit --class SparkBWA \--master local \--archives bwa.zip \SparkBWA.jar \-algorithm mem -reads paired \-index /home/hadoop/xubo/ref/GRCH38L1Index/GRCH38chr1L3556522.fasta \-partitions

2018-01-11 00:44:43 654

原创 基因数据处理101之SparkBWA本地运行配置和实例

1.修改Makefile.common:将LIBBWA_LIBS = -lrt 改为LIBBWA_LIBS = -lrt -lz不然会报错误【5】2.make之后修改java.library.path步骤:vi /etc/profile加入export LD_LIBRARY_PATH=/home/hadoop/xubo/tools/SparkBWA/build:$LD_LIBRARY_PATH

2018-01-11 00:44:24 717

原创 基因数据处理100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12

运行记录:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ bwa mem ../GRCH38chr1L3556522.fasta GRCH38chr1L3556522N1000000L100paired1.fastq GRCH38chr1L3556522N1000000L100paired2.fastq >GRCH38chr1L3556522N1000000L1

2018-01-11 00:44:10 553 1

原创 基因数据处理99之SparkBWA修改下载文件

由于每次make都需要下载spark包,180M,所以在Make中将其注释掉了。然后运行make:hadoop@Mcnode1:~/xubo/tools/SparkBWA$ makeif [ ! -d "build" ]; then mkdir build; figcc -c -g -Wall -Wno-unused-function -O2 -fPIC -DHAVE_PTHREAD -DUSE

2018-01-11 00:43:57 272

原创 基因数据处理98之SparkBWA运行时spark on Yarn问题日志完整记录

脚本:hadoop@Mcnode1:~/xubo/tools/SparkBWA/build$ cat paired.sh spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.executor.extraJavaOptions=-XX:MaxPermSize=1024M" --driver-

2018-01-11 00:43:26 550

原创 基因数据处理97之SparkBWA运行时spark on Yarn问题

hadoop@Master:~/xubo/tools/SparkBWA/build$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.confAdding default property: spark.executor.extraJavaOptions=-Djava.l

2018-01-11 00:42:28 271

原创 基因数据处理96之sparkBWA运行问题(yarn)

hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf Adding default property: spark.executor.extraJavaOp

2018-01-05 00:36:40 234

色彩空间转换matlab

色彩空间转换matlab RGB HSV YIQ NTSC

2014-04-14

isrgb.m,matlab

isrgb.m matlab rgb function y = isrgb(x) %ISRGB Return true for RGB image. % FLAG = ISRGB(A) returns 1 if A is an RGB truecolor image and % 0 otherwise. % % ISRGB uses these criteria to determine if A is an RGB image: % % - If A is of class double, all values must be in the range % [0,1], and A must be M-by-N-by-3. % % - If A is of class uint8 or uint16, A must be M-by-N-by-3. % % Note that a four-dimensional array that contains multiple RGB % images returns 0, not 1. % % Class Support % ------------- % A can be of class uint8, uint16, or double. If A is of % class logical it is considered not to be RGB. % % See also ISBW, ISGRAY, ISIND. % Copyright 1993-2003 The MathWorks, Inc. % $Revision: 1.15.4.2 $ $Date: 2003/08/23 05:52:55 $ wid = sprintf('Images:%s:obsoleteFunction',mfilename); str1= sprintf('%s is obsolete and may be removed in the future.',mfilename); str2 = 'See product release notes for more information.'; warning(wid,'%s\n%s',str1,str2); y = size(x,3)==3; if y if isa(x, 'logical') y = false; elseif isa(x, 'double') % At first just test a small chunk to get a possible quick negative m = size(x,1); n = size(x,2); chunk = x(1:min(m,10),1:min(n,10),:); y = (min(chunk(:))>=0 && max(chunk(:))<=1); % If the chunk is an RGB image, test the whole image if y y = (min(x(:))>=0 && max(x(:))<=1); end end end

2014-03-27

WebZIP下整个网站

WebZIP 是著名的离线浏览器软件,在它的帮助下你能够完整下载网站的内容,或者你也可以选择自行设置下载的层数、文件类型、网页与媒体文件的定位以及网址过滤器,以便按己所需地获取网站内容。你下载到本地硬盘中的网站内容将仍保持原本的 HTML 格式,其文件名与目录结构都不会变化,这样可以准确地提供网站的镜像。现在使用 WebZIP 中新的 FAR 插件工具,你可以把下载的内容制作成 HTML-帮助文件(.chm)。你也可以把抓取的网站内容压缩为 ZIP 文件。 免费下载:http://pan.baidu.com/s/18CdOh

2013-11-20

C语言头函数包include

C语言头函数包include stdio.h stdlib.h等

2013-10-18

计算方法实验Gauss_Seidel法和Runge_Kutta法

计算方法实验说明文档 PB10210016 徐波 实验要求: 第二版208页程序15 第二版208页程序20,将二阶改为四阶,求第二个 实验环境: 操作系统:Windows8 64位  编译软件:Code::Blocks 版本:10.05 位数:32位 实验提交时间:  考前 实验说明: Gauss_Seidel: 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 Runge_Kutta 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 附件: 程序15:Gauss_Seidel代码、可运行exe程序、输入数据文件和运行截图 程序20:Runge_Kutta代码、可运行exe程序、输入数据文件和运行截图 实验心得:   通过这次实验,对Gauss_Seidel法和Runge_Kutta法了解更深,并且有了实际运行经验,而且通过编程,对方法每一步的运算数据的输入输出了解更深,总的来说收获很大,我们应该多写些类似的程序,希望能将其放在网页上,输入数据就能运行出结果。 PB10210016 徐波 2013.5.28 代码请联系QQ:601450868  

2013-10-17

CarbonData学习资料

Apache CarbonData学习文档汇总,包含视频/文档/文件等。

2018-11-22

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project

2018-05-16

高级Shell脚本编程

高级Shell脚本编程,高级Shell脚本编程

2016-03-15

2015年中国软件开发者白皮书

2015年中国软件开发者白皮书

2016-01-12

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-javadocs-2.3.1-javadoc.jar neo4j 2.3.1 API

2015-11-26

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.1-unix.tar.gz,官网下载

2015-11-25

neo4j-enterprise-2.3.0-M03-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz,官网下载

2015-11-25

阿里移动推荐算法大赛冠军答辩PPT

阿里移动推荐算法大赛冠军答辩PPT, 阿里云 天池 移动推荐算法 冠军答辩PPT 视频在:http://tianchi.aliyun.com/mini/reply.htm?spm=0.0.0.0.DUevYN

2015-09-09

资金流入流出预测大赛冠军答辩PPT

资金流入流出预测大赛冠军答辩PPT,资金流入 流出预测 冠军答辩PPT 阿里云 天池

2015-09-09

redis-3.0.4安装包

redis-3.0.4.tar.gz,redis-3.0.4安装包,官网下载

2015-09-09

Ashley Madison用户数据泄露网站分析

Ashley Madison用户数据泄露网站分析:3300万,3700万,9.7G,bt,种子文件。下载。(仅供分析研究,禁止其他用途)

2015-08-25

JDK.API.7_English.chm

JDK.API.7_English.chm Java™ Platform, Standard Edition 7 API Specification This document is the API specification for the Java™ Platform, Standard Edition.

2015-08-24

Java 2 SE 6 Documentation.chm

Java 2 SE 6 Documentation.chm JavaTM SE 6 Platform at a Glance This document covers the JavaTM Platform, Standard Edition 6 JDK. Its product version number is 6 and developer version number is 1.6.0, as described in Platform Name and Version Numbers. For information on a feature of the JDK, click on a component in the diagram below.

2015-08-24

JavaSE中文API.chm

JavaSE中文API.chm JavaTM 2 Platform Standard Edition 5.0 API 规范 本文档是 Java 2 Platform Standard Edition 5.0 的 API 规范。

2015-08-24

jdk api 1.7英文版-带索引

java, jdk api 1.7英文版-带索引,English,Index,Java™ Platform, Standard Edition 7 API Specification

2015-08-24

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

2015-08-20

鸟哥的Linux私房菜基础篇第三版.pdf

鸟哥的Linux私房菜基础篇第三版.pdf

2015-08-20

10部算法经典著作的合集

10部算法经典著作的合集

2015-08-20

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

2015-08-20

bishop-prml-complete-solution

bishop-prml-complete-solution

2015-08-20

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除