上午
1,重新看之前准备参考的数据的那篇文章,确定要用作reference的数据就是pbmc那个。
但是不知道怎么下载这个数据,文章给了3个途径(ncbi的SRP号,10X,GitHub),但是GitHub容易打不开,10X要登录,SRP号里面的数据特别大且多(还不知道是什么样的)。
2,上课。
下午
1,关于SRP数据
终于找到能看得懂的解释了:NCBI下载SRR数据 - 知乎 (zhihu.com)。SRP数据里会有好多个SRR数据,SRR是最最原始的测序测到的数据,下载下来之后需要根据自己的研究目的再进行上下游分析。(链接里有下载方法)
单细胞转录组分析:
1,上游分析(目前想起来的:质控,mapping to reference genome,归一化【特指纠正由于pcr扩增带来的bias,包括umi分析细胞数量】,正则化【特指由于技术因素等协变量带来的bias】,基因表达量计算);
2,下游分析(包括高变异基因识别【特征识别】、细胞亚型聚类,差异表达基因分析,细胞谱系发育轨迹分析,富集分析,通路分析等等)。
所以我不是学生物的,就先不用这个数据了,如果以后需要用到再重新学。
但是上午需要的reference的数据仍然没有下载下来,也不确定我之前下载到的是不是我需要的,主要是GitHub打不开的原因!!
2,关于dgTMatrix和dgCMatrix
这篇有解释各个矩阵R语言-稀疏矩阵对象格式学习-重点理解稀疏矩阵对象的重构_r语言稀疏矩阵-CSDN博客,
dgt的矩阵是三元组形式的,没有压缩的,按照非0元素的行号、列号、数值存储的;dgc是压缩过的,检索速度更快的,按照非0元素的行号、按列的累积个数、数值存储的。
这篇有转换方法,(虽然用as转换的时候提醒,但是还是转换出来了),R语言稀疏矩阵详解_jefferyLLLLL的博客-CSDN博客。
但是问题是我的矩阵是cell×gene形式的,需要转置啊。
晚上
1,终于GitHub打开了,又看了一遍作者写的说明,确实是那个数据文件。
顺便理解了一下bead-enriched是什么意思,大概就是10X的测序的方法,用的微珠之类的技术得到的序列信息。
作者在GitHub上放的数据文件是已经经过cellranger(上游分析常用的软件)处理的,可以直接用来进行下游分析。
(另外,上游分析通常有很大的数据文件,对服务器要求较高。上游分析的步骤参考单细胞测序上游分析-从原始数据到cellranger定量 - 简书 (jianshu.com))
GEO数据一般都是gene表达矩阵和相应的文件,下载下来的可以用Read10X函数来直接读取。
然而准备下载代码zip的时候又打不开了,明天一打开电脑我就下载,不行的话就上服务器去下载。
2,读要汇报的那篇论文,很好,果然不熟悉的领域(之前一点没接触过),不怎么能看懂作者说的results,甚至英文句子也搞不清楚主谓语,找不到谓语动词,我怀疑不是我的问题,是作者不用一般时,用过去时迷惑我。改日再看吧。
今日总结
明日提醒
下载GitHub上作者的代码。
给数据做成文件,做成Seurat读取的,记得做质控。