![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 71
零级伪码农
这个作者很懒,什么都没留下…
展开
-
基因功能分析——哈佛大学
文章目录描述学习目标一、安装数据集读取数据文件加载R包二、基因组注释数据库通用数据库注释用数据库基因组构建访问数据库的工具AnnotationHubAnnotationDbiorg.Hs.eg.db为什么有如此多重复?为什么会出现基因有gene symbol但没有与之相关的ID?EnsDb.Hsapiens.v75三、功能分析Over-representation analysis超几何检验Gene Ontology projectGO OntologiesGO术语层级clusterProfiler下载注释原创 2022-04-26 12:12:12 · 2486 阅读 · 0 评论 -
哈佛大学——差异表达分析(十五)基因注释
文章目录学习目标基因组注释数据库常用数据库专用注释数据库基因组的构建访问数据库的工具注释工具:用于从特定数据库中访问/查询注释接口工具:用于从多个不同的注释源访问/查询注释AnnotationDbiAnnotationHub学习目标利用基因组注释数据库对基因表进行功能分析理解存储在不同数据库中的信息类型探讨几种常用的用于检索基因组注释的R包的优缺点基因组注释下一代测序结果的分析需要将基因、转录本、蛋白质等与功能或调控信息相关联。为了对基因列表进行功能分析,我们经常需要获得与我们希望使用的工具原创 2020-11-18 19:20:01 · 4172 阅读 · 1 评论 -
i2ds——数据导入笔记
文章目录IntroductionPaths and the working directoryThe filesystemRelative and full pathsThe working directoryGenerating path namesCopying files using pathsThe readr and readxl packagesreadrreadxlExerciseDownloading filesR-base importing functionsText versus bi原创 2020-11-18 15:59:07 · 588 阅读 · 0 评论 -
i2ds——tidyverse笔记
文章目录Tidy dataExercisesManipulating data framesAdding a column with `mutate`Subsetting with `filter`Selecting columns with `select`ExercisesTidy data#> country year fertility#> 1 Germany 1960 2.41#> 2 South Korea 1960 6.16#原创 2020-11-16 20:06:54 · 625 阅读 · 0 评论 -
哈佛大学——差异表达分析(十四)Time course analysis
文章目录学习目标用LRT进行时程分析学习目标用DESeq2讨论时程分析(time course analyses)用LRT进行时程分析尽管基因表达的静态测量很流行,但生物过程的时程捕获对于反映它们的动态本质是至关重要的,特别是当模式很复杂,而不是简单的上升或下降时。在处理这类数据时,**似然比检验(LRT)**特别有用。我们可以使用LRT来探究一系列时间点之间是否存在显著差异,并进一步评估在不同样本类别之间观察到的差异。例如,假设我们有一个实验,观察随着时间的推移,对两种不同基因型的小鼠的治疗效果原创 2020-11-09 21:22:14 · 2380 阅读 · 0 评论 -
哈佛大学——差异表达分析(十三)似然比检验结果
文章目录学习目标似然比检验(LRT)结果探索results()表为什么在LRT检验中会出现倍数变化?鉴定显著基因识别具有共享表达谱的基因簇学习目标使用LRT提取结果,并与Wald检验进行比较从LRT显著基因列表中识别共享表达谱似然比检验(LRT)结果探索DESeq2还提供了似然比检验作为跨两个以上组别评估表达变化的备选方法。被认定为有意义的基因,是那些在不同的因素水平上向任何方向上表达变化的基因。一般来说,这种检验会比个体两两比较产生更多的基因。虽然LRT是对任何水平差异的显著性检验,但我们原创 2020-11-09 20:50:59 · 5875 阅读 · 1 评论 -
哈佛大学——差异表达分析(十二)可视化
文章目录学习目标结果可视化绘制显著DE基因使用DESeq2 `plotCounts()`绘制单个基因的表达利用ggplot2绘制单个基因的表达使用ggplot2绘制多个基因(例如前20个)热图火山图学习目标使用数据可视化探索表达数据使用火山图来评估DEG统计数据之间的关系利用热图绘制重要基因的表达结果可视化当我们处理大量数据时,图形化地显示这些信息以获得更深入的了解是很有用的。在这节课中,我们将让你开始一些基本的和更高级的图形,通常用于探索差异基因表达数据,然而,这些图形中的许多也可以帮助可原创 2020-11-07 20:02:18 · 5238 阅读 · 0 评论 -
哈佛大学——差异表达分析(十一)汇总结果并提取显著性基因列表
文章目录学习目标汇总结果提取显著DE基因学习目标汇总每次比较的显著差异表达基因提取重要基因的列表汇总结果要汇总结果表,DESeq2中一个方便的函数是summary()。令人困惑的是,它与用于检查数据框的函数同名。当以DESeq结果表作为输入调用此函数时,将使用默认阈值padj < 0.1汇总结果。但是,由于我们在创建结果表时将alpha参数设置为0.05,所以阈值为FDR < 0.05(尽管输出显示p-value < 0.05,仍然使用padj/FDR)。让我们从OE vs控原创 2020-11-07 13:52:11 · 2185 阅读 · 0 评论 -
哈佛大学——差异表达分析(十)Wald检验结果解读
文章目录学习目标探索结果(Wald test)指定的对比(Specifying contrasts)我选择什么作为base level有关系吗?结果表P值基因水平过滤(Gene-level filtering)倍数变化(Fold change)更准确的LFC估计MA图学习目标讨论为两两比较(Wald测试)生成结果表所需的步骤总结不同水平的基因过滤解释log倍数变化收缩(log fold change shrinkage)探索结果(Wald test)默认情况下,DESeq2使用Wald检验来原创 2020-11-07 13:11:09 · 22719 阅读 · 0 评论 -
哈佛大学——差异表达分析(九)DESeq2步骤描述
文章目录学习目标DESeq2差异基因表达分析流程第一步:估计大小因子第二步:估计基因离散(gene-wise dispersion)第三步:拟合曲线到基因的分散估计第四步:将基因离散估计值向曲线预测值收缩MOV10 DE分析:探讨离散估计和评估模型拟合学习目标理解使用DESeq2差异表达分析过程中的不同步骤探讨离散度在差异表达分析中的重要性,并利用离散度值的图来探讨NB模型的假设DESeq2差异基因表达分析流程之前,我们使用适当的设计公式创建了DESeq2对象,并使用两行代码运行DESeq2:原创 2020-11-06 14:59:32 · 11702 阅读 · 1 评论 -
哈佛大学——差异表达分析(八)假设检验和多重检验校正
文章目录学习目标学习目标描述模型拟合过程比较两种假设检验方法(Wald检验与LRT检验)解释对多重测试(multiple testing)的需要,并介绍不同的方法原创 2020-11-05 17:21:21 · 6127 阅读 · 2 评论 -
哈佛大学——差异表达分析(七)设计公式(Design formulas)
文章目录学习目标利用DESeq2进行差异表达分析运行DESeq2设计公式(design formula)复杂的设计MOV10 差异表达分析学习目标使用DESeq2执行差异表达分析工作流程建立适合于给定实验设计的设计公式(design formulas)利用DESeq2进行差异表达分析差异表达分析工作流程的最后一步是将原始计数拟合到NB(负二项分布)模型中,并对差异表达基因进行统计检验。在这一步中,我们主要想确定不同样本组的平均表达水平是否有显著差异。DESeq2论文发表于2014年,但该包原创 2020-11-04 21:00:40 · 2456 阅读 · 1 评论 -
哈佛大学——差异表达分析(六)样本水平质控(PCA和分层聚类)
文章目录学习目标质量控制样本水平WC学习目标转换计数的无监督聚类方法(unsupervised clustering methods)用主成分分析(Principal Components Analysis)评价样品质量数据集中样本的层次聚类(Hierarchical clustering)质量控制DESeq2工作流程的下一步是QC,包括样本水平(sample-level)和基因水平(gene-level)的步骤,对计数数据进行QC检查,以帮助我们确保样本/重复看起来良好。样本水平WC原创 2020-11-04 19:30:34 · 11805 阅读 · 1 评论 -
哈佛大学——差异表达分析(五)计数归一化
文章目录学习目标归一化(Normalization)常见归一化方法学习目标探索不同类型的归一化方法了解如何创建DESeqDataSet对象了解如何使用DESeq2归一化计数(counts)归一化(Normalization)DE分析工作流程的第一步是计数归一化,这对于准确比较样品之间的基因表达是必需的。除许多其他因素(“不感兴趣”部分)外,每个基因的映射读段计数(counts of mapped reads)是RNA表达(“感兴趣”部分)的结果。归一化是调整原始计数值以解决“不感兴趣”因原创 2020-11-04 09:55:39 · 8725 阅读 · 2 评论 -
哈佛大学——差异表达分析(四)RNA-seq 计数分布
文章目录学习目标探索RNA-seq计数数据计数矩阵(Count matrix)RNA-seq计数矩阵的特征描述对计数数据进行建模均数 vs 方差备选方案:负二项分布重复与变异要多少重复样本才够?使用DESeq2进行差异表达学习目标探索RNA-seq计数数据的特征评估RNA-seq计数数据中的均值-方差关系了解生物学重复的重要性探索RNA-seq计数数据计数矩阵(Count matrix)当我们开始差异基因表达分析时,我们首先得到一个矩阵,该矩阵汇总了数据集中每个样本中的基因水平的表达。矩阵原创 2020-11-03 19:57:20 · 5667 阅读 · 0 评论 -
哈佛大学——差异表达分析(三)DGE介绍
学习目标描述RNAseq和差异基因表达分析工作流程说明实验及其目标描述如何在R中建立RNA-seq项目差异基因表达分析 在过去的十年中,RNA测序(RNA-seq)已成为转录组范围内差异基因表达和mRNAs差异剪接分析必不可少的工具。正确识别哪些基因/转录物在特定条件下表达发生变化是我们了解受影响的生物学过程的关键。 在此,我们将引导你完成使用各种R包的端到端基因水平RNA-seq差异表达工作流程。我们将从读取从Salmon获得的数据开始,将伪计数转换为计数,进行探索性数据分原创 2020-11-03 10:53:35 · 6607 阅读 · 1 评论 -
哈佛大学——差异表达分析(二)R语言复习
DGE分析流程理解在RNAseq数据上执行统计分析时的注意事项从基因计数开始(在比对和计数之后)对计数数据进行QC使用DESeq2对计数数据进行差异表达分析,获得差异显著的基因列表分析结果可视化对差异表达基因列表进行功能分析R语言复习Q&A学习目标描述R使用的各种数据类型和数据结构(包括tibbles)使用R中的函数并描述如何获取参数帮助描述如何在R中安装和使用包使用dplyr包中的管道(%>%)描述ggplot2用于绘图的语法Setting upLet原创 2020-10-29 15:30:57 · 2431 阅读 · 0 评论 -
哈佛大学——差异表达分析(一)RNAseq基础知识
文章目录概述——使用Salmon计算该课程的学习目标需要下载的包工作流程(原始数据计数)学习目标RNA-seq工作流程RNA提取和文库准备测序(Illumina)边合成边测序(Sequencing-by-synthesis)原始测序数据质量控制(FastQC)定量表达比对后序列读段的质量控制(STAR/Qualimap)质量控制:使用MultiQC汇总结果概述——使用Salmon计算该课程的学习目标使用主成分分析(PCA)和分层聚类对计数数据进行质量控制使用DESeq2获得明显不同基因的列表可视原创 2020-10-29 00:23:07 · 7034 阅读 · 1 评论 -
ArrayTools安装,示例数据试用
尝试安装 ArrayTools,并对 BRCA 示例数据进行差异表达分析和聚类安装步骤:到官网下载ArrayTools文件:按提示默认下载,途中会安装R 3.5.1以及Java,过程稍慢。安装结束后,打开一个Excel表格加载扩展项。首先,点击“文件-选项-信任中心-信任中心设置-宏设置”,勾选启用所用宏,信任对VBA工程对象模型的访问。其次,点击“文件-选项-加载项-转到-浏览”,选择ArrayTools文件夹下的名为Excel的文件 。最后,关闭后重新打开Excel,可原创 2020-10-27 18:36:55 · 1718 阅读 · 0 评论 -
Bioconductor基因组数据ExpressionSet
R的Bioconductor包是用来处理高通量测序数据的利器,测序获得的基因组数据通常以ExpressionSet形式被R识别、操纵,那么这种数据结构有什么特点?如何创建?有哪些常用操作?原创 2020-04-28 17:34:27 · 3260 阅读 · 0 评论