CopyKAT

最新推荐文章于 2024-09-29 16:46:50 发布

weixin_52597377

最新推荐文章于 2024-09-29 16:46:50 发布

阅读量854

点赞数 17

文章标签：算法

本文链接：https://blog.csdn.net/weixin_52597377/article/details/136763412

版权

UMI：单细胞测序过程中提高准确性的一种手段。唯一分子标记（UMI）是一种分子条形码，可以在测序过程中错误校正，提高准确性。这些分子条形码均为短序列，可特异性的标记样本文库中的每个分子。UMI可用于各种测序应用，许多是与DNA和cDNA的PCR重复相关的应用。RNA-seq基因表达分析和其他定量测序方法也可以采用UMI来去除重复。
按基因组坐标排序：将基因按照其在基因组上的物理位置进行排序。这种排序方式可以帮助研究者在分析时更容易地识别和探索基因之间的空间结构和相互作用。通常，基因组坐标排序可以按照染色体编号和基因的起始位置来进行。
二倍体拷贝数基线值：指的是在细胞中，正常的染色体组成为双倍体（diploid）状态时，某个基因或某些基因在正常情况下的拷贝数。在双倍体状态下，正常的细胞通常会具有两个拷贝的染色体，因此对于每个基因来说，其正常拷贝数应为2。拷贝数基线值的估计对于分析单细胞基因组数据或单细胞RNA测序数据非常重要。通过比较某个细胞的基因拷贝数与二倍体拷贝数基线值，可以确定该基因是否存在拷贝数增加或减少的变化，从而推断细胞是否存在染色体异常或基因组变异。因此，对于研究细胞的基因组稳定性、突变和癌症等疾病发生机制具有重要意义。
拷贝数：某一种基因或某一段特定的DNA序列在单倍体基因组(haploidgenome)中出现的数目（一段ACTCGCC类似这样的序列，在完整的基因组DNA序列中出现的次数）一个生物体的基因组是指一套染色体中的完整的DNA序列
Ward linkage层次聚类：它是用来最小化数据的差异与层次的方法
轮廓系数：同一簇中所有s(i)的平均值称为平均轮廓宽度
共识基因表达谱(consensus gene expression profiles)：对于每个簇，我们计算所有单个细胞在该簇中每个基因的表达值的中位数。这些中位数值构成了每个簇的共识基因表达配置文件。
染色体断点：指的是染色体上基因组结构或序列的突然改变点。这种突变点可能包括基因组重排、插入、删除、倒位等事件，导致染色体上的基因组结构发生变化。
染色体断点特征：主要是拷贝数会发生明显变化

在基于蒙特卡洛模拟的方法中，判断是否为染色体断点通常依赖于一些特征或模式，这些特征可能包括：
- 异常的拷贝数变化：染色体断点处通常会导致拷贝数发生突变或显著变化。因此，通过检测在染色体断点附近出现的拷贝数变化或跳跃来识别断点。
- 拷贝数的突变模式：染色体断点通常导致拷贝数发生剧烈变化，可能表现为从一个拷贝数状态突然跳转到另一个拷贝数状态。因此，通过检测这种突变模式来识别可能的断点。
- 突变点的集群模式：染色体断点通常会在多个细胞中共同出现，并形成突变点的集群。因此，通过识别在多个细胞中共同出现的拷贝数变化来确定断点位置。
- 统计显著性：染色体断点通常会在统计上具有显著性，即其拷贝数变化的概率较其他位置低。因此，通过统计方法来检测拷贝数变化的显著性，以确定可能的断点位置。
DLM 平滑的基本步骤如下：
- 建立动态线性模型（DLM）： 首先，需要定义一个动态线性模型，该模型描述了观测数据的变化过程。通常，动态线性模型由两部分组成：状态方程和观测方程。状态方程描述了数据的演化过程，通常使用线性动力学方程来表示；观测方程描述了观测数据与状态之间的关系。
- 参数估计： 使用观测数据，通过最大似然估计或贝叶斯推断等方法估计动态线性模型的参数。这些参数包括状态方程和观测方程中的系数以及误差项的协方差矩阵。
- 状态预测： 使用估计的参数，通过状态方程进行状态的预测。根据预测的状态，再利用观测方程，根据预测的状态得到对观测数据的预测值，而不是实际的观测数据。
- 观测更新： 将状态的预测值与实际观测数据进行比较，并通过观测方程进行观测数据的更新。这一步得到的是对观测数据的修正值（观测数据-预测数据），考虑了观测数据与状态之间的差异。
- 平滑处理： 最后，通过对预测值和修正值进行加权平均，得到最终的平滑结果。平滑处理考虑了观测数据的不确定性以及状态的预测误差，从而得到更加稳定和可靠的结果。
GMM高斯混合模型：是单一高斯概率密度函数的延伸，就是用多个高斯概率密度函数（正态分布曲线）精确地量化变量分布，是将变量分布分解为若干基于高斯概率密度函数（正态分布曲线）分布的统计模型
- 对单个高斯分布加权形成的混合分布可以充分地描述不适合于单个高斯分布的数据
蒙特卡洛模拟：是一种概率模型，可以在其预测中包含不确定性或随机性元素。使用概率模型模拟结果时，每次都会得到不同的结果。例如，您的家和办公室之间的距离是固定的。但是，概率模拟可能会通过考虑拥堵、恶劣天气和车辆故障等因素来预测不同的行驶时间。

相比之下，传统的预测方法更具确定性。它们为预测提供了明确的答案，不能将不确定性考虑在内。例如，它们可能会告诉您最短和最长行驶时间，但两个答案都不太准确。
宏基因组分箱（Binning）：是将宏基因组测序得到的混合了不同生物的序列或序列组装得到的contigs按物种分开归类的过程，类似下图[1]。传统的单物种全基因组序列都是经纯培养之后，再进行全基因组de novo测序才获得的，但是环境中存在着大量的不可培养微生物，宏基因组分箱技术有助于获得不可培养微生物的全基因组序列，获得新物种的基因组序列和功能，预测未知物种的培养方法等等。
单细胞RNA数据测的是RNA数量；拷贝数(profiles)是基因组的同一片段重复的数量；
- 单细胞RNA数据测量的是单个细胞中的RNA数量，它反映了每个基因在每个细胞中的表达水平。
- 拷贝数(profiles)数据则是指在基因组中特定区域的重复或缺失情况。它可以反映基因组中某一片段的重复次数或缺失情况，这通常用来揭示基因组的结构变化，如基因扩增、缺失或重排等。