- 博客(19)
- 资源 (23)
- 收藏
- 关注
原创 基因数据处理106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)
脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat g38L100c10000000Nhs20Paired12Bwamem.sh echo "start"startTime4=`date +"%s.%N"` time4=`date +"%Y%m%d%H%M%S"` #spark-submit --cla
2018-01-11 00:45:49 1167
原创 基因数据处理105之SparkBWAYarn模式运行1000万条paired-reads实例g38L100c10000000Nhs20Paired12YarnPartition
1.数据生成:art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired位置:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ pwd/home/hadoop/x
2018-01-11 00:45:34 658
原创 基因数据处理104之SparkBWAMaster文件得到空文件,中间sam文件找不到
脚本1:spark-submit --class SparkBWA \--master spark://219.219.220.149:7077 \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--driver-java-options
2018-01-11 00:45:18 846
原创 基因数据处理103之SparkBWAYarn模式运行100万条paired-reads实例
脚本:spark-submit --class SparkBWA \--master yarn-client \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--archives ./bwa.zip \SparkBWA.jar \-al
2018-01-11 00:44:58 584
原创 基因数据处理102之SparkBWA本地运行100万条paired-reads实例
脚本:spark-submit --class SparkBWA \--master local \--archives bwa.zip \SparkBWA.jar \-algorithm mem -reads paired \-index /home/hadoop/xubo/ref/GRCH38L1Index/GRCH38chr1L3556522.fasta \-partitions
2018-01-11 00:44:43 1137
原创 基因数据处理101之SparkBWA本地运行配置和实例
1.修改Makefile.common:将LIBBWA_LIBS = -lrt 改为LIBBWA_LIBS = -lrt -lz不然会报错误【5】2.make之后修改java.library.path步骤:vi /etc/profile加入export LD_LIBRARY_PATH=/home/hadoop/xubo/tools/SparkBWA/build:$LD_LIBRARY_PATH
2018-01-11 00:44:24 1281
原创 基因数据处理100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12
运行记录:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ bwa mem ../GRCH38chr1L3556522.fasta GRCH38chr1L3556522N1000000L100paired1.fastq GRCH38chr1L3556522N1000000L100paired2.fastq >GRCH38chr1L3556522N1000000L1
2018-01-11 00:44:10 1842 1
原创 基因数据处理99之SparkBWA修改下载文件
由于每次make都需要下载spark包,180M,所以在Make中将其注释掉了。然后运行make:hadoop@Mcnode1:~/xubo/tools/SparkBWA$ makeif [ ! -d "build" ]; then mkdir build; figcc -c -g -Wall -Wno-unused-function -O2 -fPIC -DHAVE_PTHREAD -DUSE
2018-01-11 00:43:57 558
原创 基因数据处理98之SparkBWA运行时spark on Yarn问题日志完整记录
脚本:hadoop@Mcnode1:~/xubo/tools/SparkBWA/build$ cat paired.sh spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.executor.extraJavaOptions=-XX:MaxPermSize=1024M" --driver-
2018-01-11 00:43:26 1018
原创 基因数据处理97之SparkBWA运行时spark on Yarn问题
hadoop@Master:~/xubo/tools/SparkBWA/build$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.confAdding default property: spark.executor.extraJavaOptions=-Djava.l
2018-01-11 00:42:28 473
原创 基因数据处理96之sparkBWA运行问题(yarn)
hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf Adding default property: spark.executor.extraJavaOp
2018-01-05 00:36:40 463
原创 基因数据处理95之sparkBWA运行问题
脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat pairedERR.sh spark-submit --class SparkBWA \--master local[4] \--driver-memory 1500m \--executor-memory 1500m \--executor-cores 1 \--arc
2018-01-05 00:34:15 528
原创 基因数据处理94之使用kmer分析SRR003161数据的kmer分布
1.分两组(1)kmer长度为:5 to 21(2)kmer长度为:5 to 55 by 102.代码:package org.gcdss.cliimport java.text.SimpleDateFormatimport java.util._import org.apache.spark._import org.bdgenomics.adam.projection
2018-01-05 00:28:47 2290
原创 基因数据处理93之sparkBWA安装和使用
1.安装git clone https://github.com/citiususc/SparkBWA.gitcd SparkBWAmake2.使用: 报错:没有成功hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./run.sh Error: Must specify a primary resource (JAR or P
2018-01-04 23:47:06 1794
原创 基因数据处理92之重新调整loadDataProcessing使之能适应基因数据处理91的问题
1.解决思路:正如基因数据处理91之disease的vcf2omim和dataProcessing的数据对不上描述的问题,目前解决办法如下:采取简单的map和union的方式将alternateAllele的读取改为逗号分开的。然后进行union余留问题,这样的方法需要遍历四次RDD,可以将返回的类型改为Array或者其他形式来减少时间开销。还好RDD不大, 只有1万多行。2.解决代码
2018-01-04 23:45:48 388
原创 基因数据处理91之disease的vcf2omim和dataProcessing的数据对不上
1.介绍: vcf2omim数据量为:rdd2.count:8623 dataProcessing数据为: rdd2.count:10884 sum:2300 85842300为AlternateAllele有逗号的数量,例如ref为A,AlternateAllele为G,C2.原因分析,主要是读入vcf时上诉情况会变成两条: 数据:1 10493 rs199606
2018-01-04 23:43:22 476
原创 基因数据处理90之disease的DataProcessing修改后运行记录
hadoop@Master:~/xubo/project/callDisease/DataProcessing$ ./allVcf.sh start:vcfFile:/xubo/callVariant/vcf/All_20160407.vcfdbSnp2omimFile:/xubo/callDisease/input/omimFilter9Text.txtomimFile:/xubo/ca
2018-01-04 23:41:56 342
原创 基因数据处理89之vcf2omim大数据集错误
hadoop@Master:~/xubo/project/callDisease/Vcf2Omim$ ./allVcf.sh start call Vcf2Omimstart:Vcf2OmimvcfArrRDD:end[Stage 1:> (0 + 15) / 203]16/06
2018-01-04 23:39:33 487
原创 基因数据处理88之vcf2omim得到omim和dbSnpId信息
1.代码:/** * @author xubo * more code:https://github.com/xubo245/SparkLearning * more blog:http://blog.csdn.net/xubo245 */ package org.gcdss.cli.diseaseimport java.text.
2018-01-04 23:36:28 597
opencv 3.4.1 jar
2018-05-16
JDK.API.7_English.chm
2015-08-24
Java 2 SE 6 Documentation.chm
2015-08-24
JavaSE中文API.chm
2015-08-24
jdk api 1.7英文版-带索引
2015-08-24
isrgb.m,matlab
2014-03-27
计算方法实验Gauss_Seidel法和Runge_Kutta法
2013-10-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人