20231127单细胞测序学习记录

文章讲述了作者尝试获取PBMC数据的过程,涉及SRP数据下载、单细胞转录组分析的上游(质控、映射等)与下游(聚类、表达分析等)步骤,以及如何处理dgTMatrix和dgCMatrix。作者提到使用cellranger预处理数据并计划继续学习相关领域知识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上午

1,重新看之前准备参考的数据的那篇文章,确定要用作reference的数据就是pbmc那个。

但是不知道怎么下载这个数据,文章给了3个途径(ncbi的SRP号,10X,GitHub),但是GitHub容易打不开,10X要登录,SRP号里面的数据特别大且多(还不知道是什么样的)。

2,上课。

下午

1,关于SRP数据

终于找到能看得懂的解释了:NCBI下载SRR数据 - 知乎 (zhihu.com)。SRP数据里会有好多个SRR数据,SRR是最最原始的测序测到的数据,下载下来之后需要根据自己的研究目的再进行上下游分析。(链接里有下载方法)

单细胞转录组分析:

1,上游分析(目前想起来的:质控,mapping to reference genome,归一化【特指纠正由于pcr扩增带来的bias,包括umi分析细胞数量】,正则化【特指由于技术因素等协变量带来的bias】,基因表达量计算);

2,下游分析(包括高变异基因识别【特征识别】、细胞亚型聚类,差异表达基因分析,细胞谱系发育轨迹分析,富集分析,通路分析等等)。

所以我不是学生物的,就先不用这个数据了,如果以后需要用到再重新学。

但是上午需要的reference的数据仍然没有下载下来,也不确定我之前下载到的是不是我需要的,主要是GitHub打不开的原因!!

2,关于dgTMatrix和dgCMatrix

这篇有解释各个矩阵R语言-稀疏矩阵对象格式学习-重点理解稀疏矩阵对象的重构_r语言稀疏矩阵-CSDN博客

dgt的矩阵是三元组形式的,没有压缩的,按照非0元素的行号、列号、数值存储的;dgc是压缩过的,检索速度更快的,按照非0元素的行号、按列的累积个数、数值存储的。

这篇有转换方法,(虽然用as转换的时候提醒,但是还是转换出来了),R语言稀疏矩阵详解_jefferyLLLLL的博客-CSDN博客

但是问题是我的矩阵是cell×gene形式的,需要转置啊。

晚上

1,终于GitHub打开了,又看了一遍作者写的说明,确实是那个数据文件。

顺便理解了一下bead-enriched是什么意思,大概就是10X的测序的方法,用的微珠之类的技术得到的序列信息。

作者在GitHub上放的数据文件是已经经过cellranger(上游分析常用的软件)处理的,可以直接用来进行下游分析。

(另外,上游分析通常有很大的数据文件,对服务器要求较高。上游分析的步骤参考单细胞测序上游分析-从原始数据到cellranger定量 - 简书 (jianshu.com)

GEO数据一般都是gene表达矩阵和相应的文件,下载下来的可以用Read10X函数来直接读取。

然而准备下载代码zip的时候又打不开了,明天一打开电脑我就下载,不行的话就上服务器去下载。

2,读要汇报的那篇论文,很好,果然不熟悉的领域(之前一点没接触过),不怎么能看懂作者说的results,甚至英文句子也搞不清楚主谓语,找不到谓语动词,我怀疑不是我的问题,是作者不用一般时,用过去时迷惑我。改日再看吧。

今日总结

明日提醒

下载GitHub上作者的代码。

给数据做成文件,做成Seurat读取的,记得做质控。 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值