- 博客(537)
- 资源 (23)
- 收藏
- 关注
原创 基因数据处理120之scala调用SSW在linux下运行
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释先有java提供转换,使用jni调用c然后scala调用java2.代码:2.1 java:package ssw;/** * Created by xubo on 2016/11/25. */public class SSW { public sta...
2018-06-06 09:00:04
556
原创 基因数据处理119之java调用SSW在linux下运行
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释测试自带Example:xubo@xubo:~/xubo/tools/Complete-Striped-Smith-Waterman-Library/src$ scala -Djava.library.path=. -cp SparkSW.jar ssw.ExampleAligning...
2018-06-03 00:05:44
710
原创 基因数据处理118之SSW运行
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW是一个更快的SW算法,并且提供了c语言lib和java的调用代码:https://github.com/mengyao/Complete-Striped-Smith-Waterman-Library论文:Zhao, M., et al. (2013). "SSW Lib...
2018-06-03 00:05:20
1069
原创 基因数据处理117之重新多次运行SparkBWA Yarn集群
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释重新运行,跟换了文件地址后来终端,需要运行其他的2.代码:hadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi sparkBWA.sh for j in 10000 100000 1000000 1000000...
2018-06-03 00:03:54
631
原创 基因数据处理116之重新运行SparkBWA Yarn集群模式
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释很久没运行SparkBWA了,系统文件有点多,重新运行。2.代码:endhadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi g38L100c100000Nhs20Paired12SparkBWAYarnPartit...
2018-06-03 00:03:32
578
原创 基因数据处理115之重新运行SparkBWA本地模式
更多代码请见:https://github.com/xubo245基因数据处理系列1.记录hadoop@Master:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:> (...
2018-06-03 00:02:37
1045
原创 基因数据处理114之BWA建立全基因组索引成功
运行记录hadoop@Mcnode5:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa_index] Pack FASTA... 33.14 sec[bwa_index] Construct BWT for the packed sequ...
2018-06-03 00:01:56
5242
原创 基因数据处理113之对avocado识别的SparkBWA变异数据进行疾病分析_
(一)问题问题1:avocado数据读取:avocado存到磁盘是:RDD[Genotype]val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, stats).flatMap(variantContext => variantContext.genotypes) // sav...
2018-06-03 00:01:41
497
原创 基因数据处理112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法
前面一片已经讲了遇到的问题,之前也遇到过:基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null) http://blog.csdn.net/xubo245/article/details/51525241解决办法:在读入的sam/bam/adam数据进行判定,如果RecordGroup等数据为...
2018-06-03 00:01:24
696
原创 基因数据处理111之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常
脚本:hadoop@Master:~/xubo/project/callVariant$ cat runBBg38L50c100000Nhs20Paired12YarnT201606252236LocalNopartition.sh #!/usr/bin/env bash spark-submit \--class org.gcdss.cli.callVarian...
2018-06-03 00:01:09
788
原创 基因数据处理110之批量测试SparkBWA和CS-bwamem算法
1.总的脚本 hadoop@Master:~/xubo/project/alignment$ cat runSparkBWAAndCsbwamem.sh echo "start sparkBWA" ./sparkBWA/sparkBWA.sh echo "startCsbwamem algin" ./cs-bwamem/csbwamemAlign.s...
2018-06-03 00:00:50
672
原创 基因数据处理109之SparkBWA运行成功的部分log
数据来自: http://219.219.220.149:18080/history/application_1466866953605_0001/executors/http://219.219.220.248:8042/node/containerlogs/container_1466866953605_0001_01_000003/hadoop/stderr/?start=0S...
2018-06-02 23:59:50
707
原创 基因数据处理107之cs-bwamem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired1T20160625)
1.upload:hadoop@Master:~/xubo/project/alignment/cs-bwamem$ cat align.sh #spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-...
2018-06-02 23:58:15
693
原创 基因数据处理106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)
脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat g38L100c10000000Nhs20Paired12Bwamem.sh echo "start"startTime4=`date +"%s.%N"` time4=`date +"%Y%m%d%H%M%S"` #spark-submit --cla
2018-01-11 00:45:49
1190
原创 基因数据处理105之SparkBWAYarn模式运行1000万条paired-reads实例g38L100c10000000Nhs20Paired12YarnPartition
1.数据生成:art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired位置:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ pwd/home/hadoop/x
2018-01-11 00:45:34
667
原创 基因数据处理104之SparkBWAMaster文件得到空文件,中间sam文件找不到
脚本1:spark-submit --class SparkBWA \--master spark://219.219.220.149:7077 \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--driver-java-options
2018-01-11 00:45:18
851
原创 基因数据处理103之SparkBWAYarn模式运行100万条paired-reads实例
脚本:spark-submit --class SparkBWA \--master yarn-client \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--archives ./bwa.zip \SparkBWA.jar \-al
2018-01-11 00:44:58
593
原创 基因数据处理102之SparkBWA本地运行100万条paired-reads实例
脚本:spark-submit --class SparkBWA \--master local \--archives bwa.zip \SparkBWA.jar \-algorithm mem -reads paired \-index /home/hadoop/xubo/ref/GRCH38L1Index/GRCH38chr1L3556522.fasta \-partitions
2018-01-11 00:44:43
1150
原创 基因数据处理101之SparkBWA本地运行配置和实例
1.修改Makefile.common:将LIBBWA_LIBS = -lrt 改为LIBBWA_LIBS = -lrt -lz不然会报错误【5】2.make之后修改java.library.path步骤:vi /etc/profile加入export LD_LIBRARY_PATH=/home/hadoop/xubo/tools/SparkBWA/build:$LD_LIBRARY_PATH
2018-01-11 00:44:24
1296
原创 基因数据处理100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12
运行记录:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ bwa mem ../GRCH38chr1L3556522.fasta GRCH38chr1L3556522N1000000L100paired1.fastq GRCH38chr1L3556522N1000000L100paired2.fastq >GRCH38chr1L3556522N1000000L1
2018-01-11 00:44:10
2007
1
原创 基因数据处理99之SparkBWA修改下载文件
由于每次make都需要下载spark包,180M,所以在Make中将其注释掉了。然后运行make:hadoop@Mcnode1:~/xubo/tools/SparkBWA$ makeif [ ! -d "build" ]; then mkdir build; figcc -c -g -Wall -Wno-unused-function -O2 -fPIC -DHAVE_PTHREAD -DUSE
2018-01-11 00:43:57
566
原创 基因数据处理98之SparkBWA运行时spark on Yarn问题日志完整记录
脚本:hadoop@Mcnode1:~/xubo/tools/SparkBWA/build$ cat paired.sh spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.executor.extraJavaOptions=-XX:MaxPermSize=1024M" --driver-
2018-01-11 00:43:26
1035
原创 基因数据处理97之SparkBWA运行时spark on Yarn问题
hadoop@Master:~/xubo/tools/SparkBWA/build$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.confAdding default property: spark.executor.extraJavaOptions=-Djava.l
2018-01-11 00:42:28
477
原创 基因数据处理96之sparkBWA运行问题(yarn)
hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf Adding default property: spark.executor.extraJavaOp
2018-01-05 00:36:40
469
原创 基因数据处理95之sparkBWA运行问题
脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat pairedERR.sh spark-submit --class SparkBWA \--master local[4] \--driver-memory 1500m \--executor-memory 1500m \--executor-cores 1 \--arc
2018-01-05 00:34:15
536
原创 基因数据处理94之使用kmer分析SRR003161数据的kmer分布
1.分两组(1)kmer长度为:5 to 21(2)kmer长度为:5 to 55 by 102.代码:package org.gcdss.cliimport java.text.SimpleDateFormatimport java.util._import org.apache.spark._import org.bdgenomics.adam.projection
2018-01-05 00:28:47
2299
原创 基因数据处理93之sparkBWA安装和使用
1.安装git clone https://github.com/citiususc/SparkBWA.gitcd SparkBWAmake2.使用: 报错:没有成功hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./run.sh Error: Must specify a primary resource (JAR or P
2018-01-04 23:47:06
1815
原创 基因数据处理92之重新调整loadDataProcessing使之能适应基因数据处理91的问题
1.解决思路:正如基因数据处理91之disease的vcf2omim和dataProcessing的数据对不上描述的问题,目前解决办法如下:采取简单的map和union的方式将alternateAllele的读取改为逗号分开的。然后进行union余留问题,这样的方法需要遍历四次RDD,可以将返回的类型改为Array或者其他形式来减少时间开销。还好RDD不大, 只有1万多行。2.解决代码
2018-01-04 23:45:48
391
原创 基因数据处理91之disease的vcf2omim和dataProcessing的数据对不上
1.介绍: vcf2omim数据量为:rdd2.count:8623 dataProcessing数据为: rdd2.count:10884 sum:2300 85842300为AlternateAllele有逗号的数量,例如ref为A,AlternateAllele为G,C2.原因分析,主要是读入vcf时上诉情况会变成两条: 数据:1 10493 rs199606
2018-01-04 23:43:22
484
原创 基因数据处理90之disease的DataProcessing修改后运行记录
hadoop@Master:~/xubo/project/callDisease/DataProcessing$ ./allVcf.sh start:vcfFile:/xubo/callVariant/vcf/All_20160407.vcfdbSnp2omimFile:/xubo/callDisease/input/omimFilter9Text.txtomimFile:/xubo/ca
2018-01-04 23:41:56
354
原创 基因数据处理89之vcf2omim大数据集错误
hadoop@Master:~/xubo/project/callDisease/Vcf2Omim$ ./allVcf.sh start call Vcf2Omimstart:Vcf2OmimvcfArrRDD:end[Stage 1:> (0 + 15) / 203]16/06
2018-01-04 23:39:33
489
原创 基因数据处理88之vcf2omim得到omim和dbSnpId信息
1.代码:/** * @author xubo * more code:https://github.com/xubo245/SparkLearning * more blog:http://blog.csdn.net/xubo245 */ package org.gcdss.cli.diseaseimport java.text.
2018-01-04 23:36:28
609
原创 基因数据处理87之adam-0.14.0读取adamsave数据成功
1,使用cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:但是使用adam-0.14.0的adamload可以读取。2.代码: package org.bdgenomics.adam.rdd import org.apache.spark.{SparkContext, SparkConf} import org
2017-12-26 00:06:22
468
原创 基因数据处理86之idea中编译安装adam-0.14.0成功
1.安装时需要修改maven到较高版本,并且需要就内存per mem设置较大2.记录:D:\1win7\java\jdk\bin\java -Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent-0.14.0 -Xmx2g -XX:MaxPermSize=2024M -Dmaven.home=D:\1win7\java\apa
2017-12-26 00:05:55
918
原创 基因数据处理85之adam-0.18.2无法读取0.14.0使用adamSave存储的数据
1.介绍: cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:2. adam-0.18.2 adamsave可以用loadParquetAlignments读取。但无法用loadParquetAlignments读取adam-0.14.23.代码: package org.gcdss.cli.test
2017-12-26 00:05:28
628
原创 基因数据处理84之cs-bwamem处理小数据集
1.使用的是之前的数据: spark-submit –class cs.ucla.edu.bwaspark.BWAMEMSpark –master local[2] /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/target/cloud-scale-bwamem-0.2.0-assembly.jar upload-fastq 0
2017-12-26 00:03:40
1107
原创 基因数据处理83之移动GRCH38Index到每个节点
1.从cloud/adam移出到xubo/ref:hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mkdir -p ~/xubo/ref/GRCH38Index/hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mv GCA_000001405.15_GRCh38/* ~/xubo/ref/G
2017-12-26 00:03:06
1283
原创 基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)
core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/tar
2017-12-26 00:02:40
1174
原创 基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)
core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/tar
2017-12-26 00:01:25
2765
原创 基因数据处理81之callVariant实现类callVariantByAvocado
1.代码:package org.gcdss.cli.callVariantimport java.text.SimpleDateFormatimport java.util._import org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADAMContext._import org.gcdss
2017-12-26 00:01:05
552
opencv 3.4.1 jar
2018-05-16
JDK.API.7_English.chm
2015-08-24
Java 2 SE 6 Documentation.chm
2015-08-24
JavaSE中文API.chm
2015-08-24
jdk api 1.7英文版-带索引
2015-08-24
isrgb.m,matlab
2014-03-27
计算方法实验Gauss_Seidel法和Runge_Kutta法
2013-10-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅