云计算
文章平均质量分 81
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
-
通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code review
通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code reviewGithub:git fetch origin pull/3188/head:pr31883188是PR的idhttps://github.com/apache/carbondata/pull/3188Gitlab:git pull remo...原创 2019-08-17 10:39:50 · 10538 阅读 · 0 评论 -
用Aspera connect从NCBI上下载SRA格式数据
用Aspera connect从NCBI上下载SRA格式数据:一. window1.下载地址:http://downloads.asperasoft.com/connect2/2.安装很简单,略3.下载:数据下载地址:http://www.ncbi.nlm.nih.gov/projects/faspftp/1000genomes/原创 2016-01-13 22:08:29 · 18613 阅读 · 2 评论 -
使用fastq-dump下载SRA数据
使用fastq-dump下载SRA数据环境和配置请见系列博文1.下载:fastq-dump -Z DRR047093然后会显示信息:如果文件过大会有很多可以显示制定条数fastq-dump -X 5 -Z DRR047093文件位置:自己安装sratoolkit时配置的位置hadoop@Mcnode1:~/cloud/adam/xubo/data/do原创 2016-01-13 19:45:25 · 16233 阅读 · 2 评论 -
BWA软件安装和使用
BWA软件安装和使用:1.安装请参考【1】2.使用:hadoop@Mcnode1:~/cloud/adam/xubo/data/down-sratool/sra$ bwa aln ../../dmel-all-chromosome-r5.37/dmel-all-chromosome-r5.37.fasta DRR047093.fastq >RAL357_1.sai[b原创 2016-01-13 20:54:48 · 13907 阅读 · 0 评论 -
使用速铂Aspera下载NGS数据
使用速铂Aspera下载NGS数据参考:http://boyun.sh.cn/bio/?p=1933转载 2016-01-13 17:06:18 · 1677 阅读 · 0 评论 -
ubuntu下使用sratoolkit将sra文件转换成fastq文件
ubuntu下使用sratoolkit将sra文件转换成fastq文件:环境:ubuntu14.04sratoolkit.2.5.5-ubuntu641.下载下载地址:http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software#2.将原创 2016-01-13 13:57:18 · 10340 阅读 · 0 评论 -
window下使用sratoolkit将sra文件转换成fastq
window下使用sratoolkit将sra文件转换成fastq并将fastq转换成fasta文件1.ncbi下载sra文件ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR002/SRR002644/SRR002644.sraftp://ftp-trace.nc原创 2016-01-12 22:24:53 · 12902 阅读 · 2 评论 -
SRAtoolkit使用
SRAtoolkit使用1.下载安装:http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=std.sra转fastq文件:待完成原创 2016-01-12 22:23:27 · 9140 阅读 · 2 评论 -
linux在history上加上命令执行时间,用户和IP源等
1.设置显示时间和用户:echo 'export HISTTIMEFORMAT="%F %T `whoami` "' >> /etc/profile执行source生效:source /etc/profile查看结果:history 1852 2016-01-11 16:24:52 xubo hs 1853 2016-01-11 16:24:53 xubo ls原创 2016-01-12 12:17:08 · 3348 阅读 · 1 评论 -
Spark代码3之Action:reduce,reduceByKey,sorted,lookup,take,saveAsTextFile
Spark代码3之Action:reduce,reduceByKey,sorted,lookup,take,saveAsTextFile代码:package LocalSpark/** * Created by xubo on 2016/3/3. */import java.text.SimpleDateFormatimport java.util.Dateimpor原创 2016-03-04 10:56:44 · 1565 阅读 · 0 评论 -
Spark代码2之Transformation:union,distinct,join
Spark代码2之Transformation:union,distinct,join代码:package LocalSpark/** * Created by xubo on 2016/3/3. */import org.apache.spark._import org.apache.spark.network.netty.SparkTransportConfob原创 2016-03-03 22:24:14 · 1554 阅读 · 0 评论 -
spark学习4之集群上直接用scalac编译.scala出现的MissingRequirementError问题(已解决)
报错代码:hadoop@Master:~/cloud/test/sh_spark_xubo/SparkPi$ scalac org/apache/spark/examples/SparkPi.scala error: scala.tools.nsc.MissingRequirementError: object scala.reflect.Manifest not found. at原创 2016-01-27 21:40:28 · 3085 阅读 · 3 评论 -
Spark代码4之Spark 文件API及其对搜狗数据的操作
Spark代码4之Spark 文件API及其对搜狗数据的操作搜狗数据:http://www.sogou.com/labs/dl/q.html参考:大数据Spark企业级实战说明:书中的数据可能被sogou改变,两个序号之间是空格,所以需要修改代码:package LocalSpark/** * Created by xubo原创 2016-03-04 13:05:35 · 4627 阅读 · 0 评论 -
spark学习3之examples中的SparkPi
Spark examples之SparkPi环境:服务器:ubuntu spark 1.5.2编写环境:window eclipse可以直接在集群上跑,为了熟悉流程,先下载到window,然后打成jar包上传运行:1.下载SparkPi.scala:地址:/home/hadoop/cloud/spark-1.5.2/examples/src/main/s原创 2016-01-27 19:36:24 · 4509 阅读 · 0 评论 -
Spark代码1之RDDparallelizeSaveAsFile
Spark代码1之RDDparallelizeSaveAsFile主要功能:1.并行生成n个随机数并对其进行统计并排序,最后存到HDFS2.计算和存储两部分分别计时代码:package LocalSpark/** * Created by xubo on 2016/3/3. */import org.apache.spark._//import原创 2016-03-03 21:38:18 · 1533 阅读 · 0 评论 -
hadoop之WordCoun输出文件用时间命名,避免每次运行都要修改
hadoop之WordCoun输出文件用时间命名,避免每次运行都要修改代码://public class WordCount {////}import java.io.IOException;import java.text.SimpleDateFormat;import java.util.*; import org.apache.hadoop.conf.Con原创 2016-01-28 21:41:30 · 825 阅读 · 0 评论 -
spark学习7之IDEA下搭建Spark本地编译环境并上传到集群运行
IDEA下搭建SPark本地编译环境并上传到集群运行环境:本地:window7 64 +idea15.0.4+scala 2.10.5集群:ubuntu+spark1.5.21.安装scala2.10.5,需要配置环境变量,还需要安装jdk1.7,同样要环境变量,很多教材,不细讲2.本地安装idea15.0.4:https://www.jetbrains.c原创 2016-03-03 17:26:02 · 3327 阅读 · 0 评论 -
Scala学习4之快学scala第六章习题之6.6花色枚举
快学scala第六章习题之6.6花色枚举6.6 编写一个扑克牌4种花色的枚举,让其toString方法分别返回♣,♦,♥,♠ 代码:package Chapter6//utf-8 =>http://zhidao.baidu.com/link?url=05MrcrgTsvXFouAP8c2eHkkjf1JvZiMvivNyJQqoQ1_TR5QJBO8BhbrUnn原创 2016-02-26 13:08:04 · 914 阅读 · 0 评论 -
Scala学习3之快学scala第五章习题之构造器
快学scala第五章习题之构造器:6.8 创建一个Car类,以只读属性对应制造商,型号名称,型号年份以及一个可读写的属性用于车牌。提供四组构造器。每个构造器fc都要求制造商和型号为必填。型号年份和车牌可选,如果未填,则型号年份为-1,车牌为空串。你会选择哪一个作为你的主构造器?为什么? 选择四个属性的,其他构造器可以在此基础上直接赋值代码:package Chapter5o原创 2016-02-24 22:50:39 · 919 阅读 · 0 评论 -
spark学习8之eclipse安装scala2.10和spark编译环境并上传到集群运行
eclipse安装scala和spark编译环境并上传到集群运行本地环境:Window+eclipse4.3.2+scala.2.10.5+JDK1.71.scala安装,JDK安装简单,请自查2.eclipse安装:http://www.eclipse.org/downloads/packages/release/Kepler/SR2如果安装eclipse 4.5原创 2016-03-03 18:03:01 · 1992 阅读 · 0 评论 -
SNAP建立索引的时候出现问题
hadoop@Mcnode1:~/cloud/adam/xubo/snap$ ./snap-aligner index ../../down/xubo/GRCH38/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_full_plus_hs38d1_analysis_set.f原创 2016-01-08 21:49:18 · 1676 阅读 · 2 评论 -
基因数据库收集
基因数据库收集:1.千人基因组数据库:1092人基因库,250T左右介绍:http://www.1000genomes.org/下载地址:uk:ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/NCBI FTP Site : ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftpAmazon S3原创 2015-12-08 14:26:37 · 4703 阅读 · 0 评论 -
neo4j的examples之EmbeddedNeo4j.java
neo4j的examples之EmbeddedNeo4j.javaneo2.3.0 代码 下载:github/* * Licensed to Neo Technology under one or more contributor * license agreements. See the NOTICE file distributed with * this work for additi原创 2015-11-25 10:27:40 · 1883 阅读 · 0 评论 -
java连接neo4j
java连接neo4j,笔记:环境eclipse marsneo4j 2.3.01.环境配置好,neo4j安装在ubuntu14.04下eclipse安装在window8.1下2.将neo4j下的lib中的所有jar包导出再倒入到eclipse的项目下3.从neoj的github下载文件:https://github.com/neo4j原创 2015-11-24 21:46:58 · 4255 阅读 · 0 评论 -
neo4j的安装
环境: ubuntu14.04 neo4j-enterprise-1.9.4-unix.tar.gz neo4j-enterprise-2.3.0-M02同样可行 单机: 1.下载neo4j并解压:地址:http://neo4j.com/download/other-releases/2.运行启动neo4j:./neo4j-enterprise-1.9.4/bin/neo4j start如原创 2015-11-23 21:05:29 · 6156 阅读 · 0 评论 -
MongoDB分片集群环境搭建好后简单的创建和测试数据库表
1.进入mongoDB:2.新建数据库且分片:mongos> use 502switched to db 502mongos> sh.enableSharding("502"){ "ok" : 1 } 查看表状态:mongos> sh.status()--- Sharding Status --- ...//略 { "_id" : "502原创 2015-08-19 18:47:37 · 3632 阅读 · 0 评论 -
mongoDB分片集群常用指令
1.帮助指令:sh.help(),查看有哪些指令及其含义和使用方法。mongos> sh.help() sh.addShard( host ) server:port OR setname/server:port sh.enableSharding(dbname) enables sharding on the d原创 2015-08-19 16:39:50 · 5127 阅读 · 0 评论 -
MongoDB简单操作指令
1.db:查看当前指向的数据库> dbxubo2.use:使用某个数据库> use testswitched to db test> dbtest3.show dbs:显示有哪些数据库及其大小> show dbslocal 0.078GBtest 0.078GBxubo 0.078GB4.show collections:显示当前数据库中的集原创 2015-08-13 12:27:17 · 719 阅读 · 0 评论 -
mongoDB搭建和运行简单的增删改查操作
1.下载安装包到本地。mongoDB官方下载地址:https://www.mongodb.org/ 2.解压:tar -zxvf mongodb-linux-x86_64-ubuntu1404-3.0.5.tgz 3.进入mongoDB文件目录并加入地址:mv mongodb-linux-x86_64-ubuntu1404-3.0.5 mongodbcd mongod原创 2015-08-13 11:29:08 · 2147 阅读 · 0 评论 -
大数据时代:内存数据网格逐步成为主流
内存数据网格:In Memory Data Grid (IMDG)内存数据网格被视为处理迅速、多样和大数据量的大数据的一种方式。将数据存储到内存中,并使其分布到多个服务器上,该方法的目的是更容易获取数据、改进其可扩展性和更好地进行数据分析。该方法早期的使用者仅包括Google、 Facebook 和 Twitter这样的互联网巨头,但是专家称现在该方法逐步成为主流。康涅狄格州斯坦福德市转载 2015-08-12 16:35:17 · 2828 阅读 · 0 评论 -
neo4j的php客户端neoclient连接和使用
neo4j的php客户端neoclient连接和使用1.下载安装neo4j安装 neo4j 2.3.0M02 请见:http://blog.csdn.net/xubo245/article/details/50000967neoclient的下载:https://github.com/neoxygen/neo4j-neoclient安装:composer require原创 2015-11-26 11:04:28 · 3582 阅读 · 3 评论 -
neo4j-neoclient-example之movies 推荐
neo4j-neoclient-example之movies 推荐参考:https://github.com/ikwattro/neo4j-neoclient-example1.git clonegit clone https://github.com/ikwattro/neo4j-neoclient-example2. composer原创 2015-11-26 19:30:35 · 1364 阅读 · 0 评论 -
neo4j的examples之EmbeddedNeo4jWithCustomLogging.java
neo4j的examples之EmbeddedNeo4jWithCustomLogging.java源码:/* * Licensed to Neo Technology under one or more contributor * license agreements. See the NOTICE file distributed with * this work for addition原创 2015-11-25 10:31:58 · 810 阅读 · 0 评论 -
人类基因组参考基因组
人类基因组参考基因组:GRCh38下载地址:ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/GRCh38_reference_genome/使用以上数据的有:https://github.com/chapmanb/cloudbiolinux/blob/master/ggd-recipe原创 2016-01-08 22:25:25 · 6548 阅读 · 0 评论 -
amplab实验室的SNAP算法运行和操作
amplab实验室的SNAP算法运行和操作:环境:ubuntu14.041.安装:参考【1】和【2】,需要:g++ version 4.6zlib 1.2.8 from http://zlib.net/安装:sudo apt-get install g++sudo apt-get install zlib1g-devzlib没有直接的安装包,原创 2016-01-08 17:07:16 · 1946 阅读 · 0 评论 -
待学习
工具:adam—使用Apache Avro, Apache Spark 和 Parquet的基因组处理引擎,有专用的文件格式,Apache 2软件许可。bioscala —Scala语言可用的生物信息学程序库论文:https://scholar.google.com/scholar?cluster=12239508958754333100&hl=zh-CN&as_sdt原创 2016-01-07 15:14:15 · 711 阅读 · 0 评论 -
aspera connect使用的问题
aspera connect使用的问题:为何ascp老是报错?网络的问题?hadoop@Mcnode1:~/.aspera/connect/etc$ ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp.ncbi.nlm.nih.gov:1GB ./原创 2016-01-20 21:16:34 · 14353 阅读 · 13 评论 -
java用jdbc连接neo4j
java用jdbc连接neo4j环境:客户端:window 8.1 eclipse marsjdk1.7服务端:ubuntu14.04neo4j 2.3.0带密码1.新建测试java文件neo4jJdbc.java:package n1;import java.sql.Connection;import java.sql.DriverManag原创 2015-12-01 15:17:08 · 13534 阅读 · 0 评论 -
php客户端neoclient遍历neo4j中的节点和关系及其属性等
neoclient遍历neo4j中的节点和关系及其属性等:环境: ubuntu 14.04 neo4j 2.3.0M02 企业版 neoclient php5.5.9 环境配置请见前一篇博文操作: 网络结构图:create (n0:Person { name: 'S' }),(n1:Person { name: 'A1' }),(n2:Person { name: 'A2' }),原创 2015-11-26 16:05:10 · 2719 阅读 · 0 评论 -
neo4j的examples之EmbeddedNeo4jWithIndexing.java
neo4j的examples之EmbeddedNeo4jWithIndexing.java源码:/* * Licensed to Neo Technology under one or more contributor * license agreements. See the NOTICE file distributed with * this work for additional in原创 2015-11-25 10:45:56 · 1127 阅读 · 0 评论
分享