20231127单细胞测序学习记录

最新推荐文章于 2025-01-08 17:55:31 发布

哈，今日又被我学到一点点

最新推荐文章于 2025-01-08 17:55:31 发布

阅读量291

点赞数

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58270210/article/details/134653173

版权

文章讲述了作者尝试获取PBMC数据的过程，涉及SRP数据下载、单细胞转录组分析的上游（质控、映射等）与下游（聚类、表达分析等）步骤，以及如何处理dgTMatrix和dgCMatrix。作者提到使用cellranger预处理数据并计划继续学习相关领域知识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上午

1，重新看之前准备参考的数据的那篇文章，确定要用作reference的数据就是pbmc那个。

但是不知道怎么下载这个数据，文章给了3个途径（ncbi的SRP号，10X，GitHub），但是GitHub容易打不开，10X要登录，SRP号里面的数据特别大且多（还不知道是什么样的）。

2，上课。

下午

1，关于SRP数据

终于找到能看得懂的解释了：NCBI下载SRR数据 - 知乎 (zhihu.com)。SRP数据里会有好多个SRR数据，SRR是最最原始的测序测到的数据，下载下来之后需要根据自己的研究目的再进行上下游分析。（链接里有下载方法）

单细胞转录组分析：

1，上游分析（目前想起来的：质控，mapping to reference genome，归一化【特指纠正由于pcr扩增带来的bias，包括umi分析细胞数量】，正则化【特指由于技术因素等协变量带来的bias】，基因表达量计算）；

2，下游分析（包括高变异基因识别【特征识别】、细胞亚型聚类，差异表达基因分析，细胞谱系发育轨迹分析，富集分析，通路分析等等）。

所以我不是学生物的，就先不用这个数据了，如果以后需要用到再重新学。

但是上午需要的reference的数据仍然没有下载下来，也不确定我之前下载到的是不是我需要的，主要是GitHub打不开的原因！！

2，关于dgTMatrix和dgCMatrix

这篇有解释各个矩阵R语言-稀疏矩阵对象格式学习-重点理解稀疏矩阵对象的重构_r语言稀疏矩阵-CSDN博客，

dgt的矩阵是三元组形式的，没有压缩的，按照非0元素的行号、列号、数值存储的；dgc是压缩过的，检索速度更快的，按照非0元素的行号、按列的累积个数、数值存储的。

这篇有转换方法，（虽然用as转换的时候提醒，但是还是转换出来了），R语言稀疏矩阵详解_jefferyLLLLL的博客-CSDN博客。

但是问题是我的矩阵是cell×gene形式的，需要转置啊。

晚上

1，终于GitHub打开了，又看了一遍作者写的说明，确实是那个数据文件。

顺便理解了一下bead-enriched是什么意思，大概就是10X的测序的方法，用的微珠之类的技术得到的序列信息。

作者在GitHub上放的数据文件是已经经过cellranger（上游分析常用的软件）处理的，可以直接用来进行下游分析。

（另外，上游分析通常有很大的数据文件，对服务器要求较高。上游分析的步骤参考单细胞测序上游分析-从原始数据到cellranger定量 - 简书 (jianshu.com)）

GEO数据一般都是gene表达矩阵和相应的文件，下载下来的可以用Read10X函数来直接读取。

然而准备下载代码zip的时候又打不开了，明天一打开电脑我就下载，不行的话就上服务器去下载。

2，读要汇报的那篇论文，很好，果然不熟悉的领域（之前一点没接触过），不怎么能看懂作者说的results，甚至英文句子也搞不清楚主谓语，找不到谓语动词，我怀疑不是我的问题，是作者不用一般时，用过去时迷惑我。改日再看吧。

今日总结

明日提醒

下载GitHub上作者的代码。

给数据做成文件，做成Seurat读取的，记得做质控。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。