阅读和实践-CSDN博客

原创《泛基因组：高质量参考基因组的新标准》

在基因组时代的早期，研究人员主要采用单一的“参考”基因组作为目标物种的基础，这一基因组用于进行各种遗传分析，包括物种内部和物种间的变异研究。随着测序技术的发展，测序质量显著提高，成本大幅降低，成千上万的新基因组被测序，从而揭示了大量物种间的遗传变异。这一过程使人们意识到，单一参考基因组无法代表一个物种的全部遗传信息。泛基因组的优势泛基因组分析提供了一个平台，通过收集物种的整体基因组信息库，获取其全部遗传多样性。该方法已在细菌、真菌以及动植物中得到广泛应用。亟待解决的问题基因组组装不完整。

2024-10-29 11:00:31 1940

原创《A complete telomere-to-telomere assembly of the maize genome》个人一些难理解的概念

综上所述，植物遗传作图能够提供关于基因连锁关系、基因定位、基因定向、亲缘关系、家系分析以及突变和多态性等方面的信息，为植物遗传学和育种研究提供有价值的数据和指导。通过使用特定的探针（如(TAG)15和(TTTAGGG)7），研究人员可以精确定位这些重复序列在染色体上的位置，从而了解它们在基因组中的分布。这有助于提高组装的准确性。通过遗传作图，可以确定基因的传递方向，即基因转移的来源和目标。通过使用超长的ONT读段和PacBio HiFi读段，结合不同技术的优点，确保生成的基因组更为完整，增强数据的整合性。

2024-10-25 21:15:00 1124

原创《A complete telomere-to-telomere assembly of the maize genome》方法总结

研究背景完整的T2T基因组组装一直是基因组研究的长期追求。研究方法通过生成高深度覆盖的超长和测序数据，报道了玉米的完整基因组组装。每条染色体均以单一contig的形式完整覆盖。结果概述Mo17基因组的大小为，基础准确率超过。揭示了基因组所有重复区域的结构特征。发现多个超长简单序列重复阵列，其中连续的三核苷酸重复长度可达。完整组装了的核仁组织区域，包含个拷贝，揭示了rDNA重复和转座子插入的复杂模式。完成了十个中心粒的完整组装，精确剖析了CentC丰富和CentC贫乏中心粒的重复组成。研究意义。

2024-10-24 21:45:00 1075

原创植物端粒到端粒（Ｔ２Ｔ）基因组研究进展与展望

高通量染色体构象捕获（high-throughput chromosome conformation capture）。

2024-10-24 19:15:00 3099

原创一个文件中的一列名key2，比对同一个目录下的所有文件的一列一个列名CARD gene ID（所有文件表头一样），如果比对的上，则复制这个文件到另一个目录中

获取文件中的 'CARD gene ID' 列，并与主文件的 'Key2' 列进行比对。print(f"文件 {filename} 不包含 'CARD gene ID' 列。destination_directory = 'xxxxxxxx' # 比对成功后复制到的目录。if filename.endswith(".xlsx"): # 只处理Excel文件。source_file = 'xx.xlsx' # 需要比对的主文件。# 获取主文件中的 'Key2' 列，转换为集合以加快比对速度。

2024-10-11 15:31:51 223

原创文献分享《Microbiome and cancer》

人类微生物群构成了一个复杂的多王国群落，与宿主在多个身体部位共生相互作用。宿主-微生物群的相互作用影响多种生理过程和各种多因素的疾病条件。在过去的十年中，微生物群落被认为会影响多种癌症类型的发展、进展、转移形成和治疗反应。虽然微生物对癌症生物学的影响的因果证据才刚刚开始被揭示，但增强对这种与癌症调节的相互作用和对癌症治疗的影响的分子理解被认为具有重要的科学重要性和临床相关性。

2024-05-27 22:15:00 1187

原创文献分享《Genetic mutations associated with metastatic clear cell renal cell carcinoma》

转移是癌症患者死亡的主要原因，早期发现和干预转移可显著改善其临床预后。我们对透明细胞肾细胞癌(CCRCC)患者治疗前原发肿瘤(PT)、肿瘤扩展(TE)和淋巴转移(LM)部位的RNA(表达)和DNA(突变)进行了测序和分析。在这里，我们报告了Plk5 c区附近的一个与淋巴转移特异性相关的三个核苷酸缺失。这种突变在PT中无法检测到，在TE中可以检测到，并在LM组织中占主导地位。因此，虽然只有少数原发性癌细胞携带这种突变，但大多数转移性细胞都有这种突变。

2024-05-27 19:45:00 789

原创 R语言：单细胞：挑选PC分群聚类

pdf(file = "聚类后UMAP.pdf",width =6.5,height = 5.5)> pdf(file = "聚类后TSEN.pdf",width =6.5,height = 5.5)> pdf(file = "前20个PC热图.pdf",width =7.5,height = 9)> pdf(file = "挑选分辨率.pdf",width =12,height =10)> pdf(file = "聚类热图.pdf",width =22,height = 16)#选择分辨率进行降维。

2024-05-21 20:59:57 1486

原创文献分享：single-cell rna sequencing analysis:astep-by-step overview

由于创新的样品制备和测序技术，单个细胞中的基因表达现在可以在一次实验中测量数千个细胞。自引入以来，单细胞RNA测序(scRNA-seq)方法已经彻底改变了基因组学领域，因为它们通过在单细胞分辨率下探索基因表达谱，为解决细胞异质性创造了前所未有的机会。然而，快速发展的scRNA-seq领域引发了各种分析方法的出现，旨在最大限度地发挥这种新策略的全部潜力。与基于群体的RNA测序方法不同，scRNA测序需要全面的计算工具来解决高数据复杂性，并跟上新兴的单细胞相关挑战。尽管有大量的分析方法，但缺乏普遍的标准化。

2024-05-21 20:59:20 1201

原创 windows下ubuntu系统，bwa reads mapping

其中，GCA_000005845.2和GCF_000005845.2分别是大肠杆菌K-12 substr. MG1655基因组的两个不同版本，包含了该基因组的fasta格式序列文件（GCA_000005845.2_ASM584v2_genomic.fna和GCF_000005845.2_ASM584v2_genomic.fna）。#可以使用统计软件或脚本来进一步分析coverage.txt文件，以获得reads在参考基因组上的分布情况，比如平均覆盖度、覆盖度分布图等。我们选择一个作为大肠杆菌的基因组文件。

2024-05-21 08:36:35 633

原创 R语言：单细胞pcoa降维和去批次

DimPlot(seurat, reduction = "tsne",pt.size = 0.5)+theme_classic()+theme(panel.border = element_rect(fill=NA,color="black", size=0.5, linetype="solid"),legend.position = "right") #top为图列位置最上方，除此之外还有right、left、bottom(意思同英文)#绘制去批次后tsne单样本分布图。# 提取前10的高变基因。

2024-05-20 19:47:31 1651

转载转载：mNGS的背景菌问题，以及AI在深度解析mNGS背景菌问题上展现出了专家级水平

下面的内容来自mNGS的“背景菌”一直是一个备受关注的问题，但不同的人对mNGS的“背景菌”可能有不同的理解。即便是专业人员对mNGS的认知也有巨大的差异，所以mNGS的“背景菌”没有一个共识上的定义。基于我自己的理解，mNGS的“背景菌”，只是口语上的习惯说法，更准确的表达应该是“污染微生物”。因为“背景菌”不仅仅只是细菌，还可能是真菌、病毒、寄生虫等。所以用“污染微生物”更准确。那用“背景微生物”如何？这个词虽然表达清楚了“微生物”，但是“背景”两个字还是太容易造成误解，或者大家的理解不一致。

2024-05-17 22:15:00 442

原创 R语言：lasso筛选基因

setwd("D:/28.lasso筛选基因")

2024-05-17 20:36:43 862

原创资料总结分享：lasso回归，岭回归，svm,随机森林，

Lasso回归是一种线性回归方法，它可以用于特征选择和模型正则化。在Lasso回归中，除了最小化数据拟合误差外，还会加上一个惩罚项，这个惩罚项是特征系数的绝对值之和乘以一个参数。这个参数可以控制模型的复杂度，促使模型选择更少的特征，从而降低过拟合的风险。Lasso回归是一种常用的机器学习方法，特别适用于具有大量特征的数据集。Lasso回归（Least Absolute Shrinkage and Selection Operator regression）是一种用于特征选择和稀疏建模的线性回归方法。

2024-05-16 20:49:19 3054 2

原创 R语言：单细胞鉴定高变基因

pdf("标记前10高变基因.pdf")##标准化LogNormalize。> pdf("高变基因.pdf")# 提取前10的高变基因。

2024-05-16 20:48:57 628

原创 R语言：单细胞数据质控

mask2 <- seurat$nFeature_RNA >= 200 & seurat$nFeature_RNA <= 10000 #每个细胞中检测到的基因数量。> seurat[["percent.mt"]] <- PercentageFeatureSet(seurat, pattern = "^MT-")#线粒体基因。> seurat[["percent.rb"]] <- PercentageFeatureSet(seurat, pattern = "^RP")#核糖体基因。

2024-05-16 20:48:01 1582

原创 R语言：cox分析列线图

title="",rank="sd",学习交流一下。

2024-05-15 22:15:00 1245

原创 R语言：GO和KEGG分析

id.fc=rtdev.off()> id.fc=rt。

2024-05-15 21:15:00 2562

原创机器学习概念：一些基本概念

损失函数（Loss Function）用于衡量模型预测结果与真实标签之间的差异。训练过程的目标是通过最小化损失函数来调整模型的参数，使其能够产生更准确的预测结果。

2024-05-15 01:45:00 1724 1

原创 R语言：热图，火山图

不太好看。g> g2交流学习。

2024-05-14 20:52:21 1285

原创 R语言：多因素cox

head(rt)#cox模型建立head(cox)

2024-05-14 20:51:52 1110

原创 R语言：瀑布图的绘制

> library(maftools) > maf = read.maf(maf = 'combined_maf_value.txt') > pdf(file="waterfall.pdf",width=7,height=6)> oncoplot(maf = maf,top = 30, fontSize = 0.8 ,showTumorSampleBarcodes = F )> dev.off()> pdf(file="waterfall-gene.pdf",width=7,

2024-05-14 20:19:33 1096

原创 R语言：ROC分析

inputFile="结果.txt"结果不好，但过程可以学习。

2024-05-14 20:18:50 487

原创 R语言：肿瘤突变负荷分析

通过lapply循环去读每一个样本的maf，然后通过rbind合并成矩阵，按行来合并。#通过合并path,还有sample sheet前两列得到每一个文件的完整路径。#替换.为下划线，转换成小写，sample_id替换成sample。函数，计算了基于 MAF 数据的肿瘤突变负荷（TMB）。#定义去除重复样本的函数FilterDuplicate。#删掉最后一列sample_type中的空格。#调用merge_maf函数合并maf的矩阵。#读入maf的sample sheet文件。#保存合并后的maf文件。

2024-05-13 20:33:42 1089

原创 R语言：GSEA分析

安装软件包> if (!#加载软件包#设置变量> head(rt)head(rt))\\-(.*?)\\-(.*?#排序#GESA分析dev.off()dev.off()一起学习交流。

2024-05-13 19:04:49 1392

原创机器学习概念：几种常见的距离参数概念和应用

假设有两个点 P 和 Q，在一个多维空间中，P 的坐标为 (p1, p2, ..., pn) 并且 Q 的坐标为 (q1, q2, ..., qn)，切比雪夫距离定义为这两个点对应坐标差的绝对值的最大值。然而，它也有局限性，例如在考虑地球表面上的实际距离时，应使用更复杂的距离度量，如大圆距离（Haversine公式），而不是简单的直线距离。其中，$p_i$ 和 $q_i$ 是点 P 和 Q 在第 $i$ 维上的坐标，而 $max$ 表示取这些差的绝对值中的最大者。

2024-05-13 18:51:01 1276

原创机器学习概念：决策树的一些概念

基于已知值的分裂：在决策树的分裂过程中，可以将具有缺失值的样本分配到多个子节点中。对于一个具有缺失特征值的样本，可以同时在每个可能的子节点中进行分裂，使得每个子节点都考虑到缺失值。这种方法可以在保留样本的同时利用其他特征的信息。缺失值作为单独的分支：为了处理缺失值，可以将具有缺失特征值的样本分配到一个单独的子节点中。这样，在分裂过程中可以为缺失值创建一个单独的分支。这种方法可以有效地处理缺失值，但可能会导致树的增长并引入更多的不确定性。

2024-05-13 18:50:36 1168 1

原创资料总结分享：瀑布图，GESA,生存曲线

纵轴为对应的Running ES, 在折线图中有个峰值，该峰值就是这个基因集的Enrichemnt score，峰值之前的基因就是该基因集下的核心基因。对于Enrichment score为正数的基因集而言，其核心基因是峰值之前的基因，对于Enrichment score为负数的基因集而言，其核心基因是峰值之后的基因。GSEA分析的是一个基因集下的所有基因是富集在这个排序列表的顶部还是底部，如果在顶部富集，可以说，从总体上看，该基因集是上调趋势，反之，如果在底部富集，则是下调趋势。

2024-05-12 22:53:36 2144

原创文章分享：《肿瘤DNA甲基化标志物检测及临床应用专家共识（2024版）》

DNA 甲基化是一种 DNA 的共价修饰，具体是指DNA 甲基转移酶（DNA methyltransferases，DNMTs）将甲基加到 DNA CpG 序列中胞嘧啶的 5'碳位，形成 5⁃甲基胞嘧啶的过程。成簇的 CpG被称为 CpG岛（CpGislands，CGIs），主要位于结构基因的启动子和第一外显子区域。DNA 甲基化标志物是癌细胞中的 DNA异常甲基化改变，这种异常甲基化贯穿于癌症发生和发展的全过程。与传统的肿瘤标志物相比，DNA甲基化标志物具有更早期、更无创、更精准等优点。

2024-05-10 22:38:48 1524

原创 python：做柱状图

plt.bar(categories, values, color=['red', 'green', 'blue', 'orange'])#颜色可以增加。出现报错，字体不可用，我们可以看到，设置的题目和x轴y轴的名称没有出现。plt.xlabel('类别', fontproperties=prop)plt.xlabel('类别', fontproperties=prop)plt.xlabel('类别', fontproperties=prop)# 添加标题和标签，并使用新宋体字体。

2024-05-10 02:15:00 891

原创 python:画折线图

plt.title('柱状图示例', fontproperties=prop)plt.xlabel('类别', fontproperties=prop)plt.ylabel('数值', fontproperties=prop)# 假设 xlsx 文件包含两列，一列是类别，一列是数值。# 添加标题和标签，并使用新宋体字体。#以上是自己的数据，可以加上这个。# 创建柱状图，并设置颜色。# 设置新宋体字体的路径。# 读取 xlsx 文件。

2024-05-09 22:15:00 391

原创 R语言：r做pcoa分析

geom_vline(xintercept = 0, color = 'gray', size = 0.4) + # 在0处添加垂直线条。+ geom_vline(xintercept = 0, color = 'gray', size = 0.4) + # 在0处添加垂直线条。+ geom_vline(xintercept = 0, color = 'gray', size = 0.4) + # 在0处添加垂直线条。> # 将 p2 放在第二行第一列。

2024-05-09 08:15:00 2276

原创 python：画饼图

plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140) # autopct 参数用于显示百分比。labels = df['Category'].tolist() # 假设 'Category' 列包含标签数据。sizes = df['Value'].tolist() # 假设 'Value' 列包含每个部分的大小数据。那我们进阶一下，我们现在要导入我们自己的数据来画图，假设我们的数据在一个xlsx中，那该如何？

2024-05-08 20:49:07 753

原创 R语言：r画韦恩图

ggsave("韦恩图.png", plot = p1, width = 10, height = 8, dpi = 150)+ text = element_text(size = 16) # 设置字体大小为 16。分辨率高了很多，这只是最基本的用法，想要画一个好图，得需要多次修改。> data <- read.xlsx("韦恩图种2.xlsx")

2024-05-08 20:48:44 1246

原创资料总结分享：VCF文件

VCF文件指的是Variant Call Format，即变异调用格式。它是一种常用的文本文件格式，用于描述基因组中的变异信息，如单核苷酸多态性（SNP）、插入缺失（Indels）等。

2024-05-08 00:45:00 4764

原创 R语言：卡方检验

χ2统计量衡量了观察值与期望值之间的偏差程度，它的计算公式为：χ2 = Σ [(观察频数 - 期望频数)^2 / 期望频数]。需要注意的是，P值（显著性水平）小于0.05，这意味着我们可以以95%的置信度拒绝零假设，即男性和女性病例的阳性率之间存在显著差异。我们看到这个数据男性阳性人数为1507，阴性为1126，女性阳性为1429，阴性为971，我们使用卡方检验看一看阳性率是否在性别上存在差异。这个意思是根据给定的数据，对比了男性和女性病例的阳性率，并进行了χ2检验来评估两者之间的差异是否具有统计学意义。

2024-05-07 19:56:24 1474

原创资料总结分享：SAM,bam,bed文件格式

表示read比对到RNAME这条序列的最左边的位置，如果该read能够完全比对到这条序列（CIGAR string为M）则这个位置是read的第一个碱基比对的位置，如果该read的反向互补序列比对到这条序列，则这个位置是read的反向互补序列的第一个碱基比对的位置，所以无论该read是正向比对到该序列，或是其反向互补序列比对到该序列，比对结果均是最左端的比对位置。SAM文件中的每一行包含了比对的序列ID、比对的标志、参考序列的名称、序列的起始位置、比对得分、序列的序列等信息。

2024-05-07 19:55:49 2150

原创 windows ubuntu子系统，4.HaplotypeCaller和Mutect2总结

指定tranches文件和校正文件分别为"𝑖𝑑.𝑊𝐸𝑆.𝑠𝑛𝑝.𝑡𝑟𝑎𝑛𝑐ℎ𝑒𝑠"和"id.WES.snp.tranches"和"{id}.WES.snp.recal.vcf" (--tranches-file和--recal-file参数)它用于对VCF文件进行校正和过滤，以提高SNP的质量和可信度。ATK的HaplotypeCaller命令对一个名为sample.txt的文件中的每个样本进行变异检测。> output.ann.vcf：将注释后的结果重定向到名为output.ann.vcf的输出文件中。

2024-05-06 19:32:46 1773

转载文章分享《实验室自建肿瘤全景变异检测性能确认中国专家共识（2024版）》

CGP NGS检测的性能确认记录文档，应包含整个检测流程的标准操作规程文件，包括样本采集与处理、文库制备、测序、数据分析、性能确认结果报告等过程描述。实验人员需应严格遵循标准操作规程。

2024-05-06 19:31:07 254

原创 windows ubuntu sed,awk,grep篇：13.其他 awk 命令

因为我们指定的是最小宽度，通过之前的例子可以知道，如果字符串长度超过指定的宽度，字符串仍然会整个被打印出来。下面的例子，打印每个字段后，执行一个“回车”，在当前打印的字段的基础上，打印下一。隔符，即使用冒号分隔商品编号和销售量，在销售量列表中，每个数字之间以逗号分隔。如果想在字符串超出指定宽度时，仍然以指定的宽度把字符串打印出来，可以使用。宽度，如果字符串的宽度比该数字小，会在输出列左侧加上空格以凑足该宽度。使用一套算法产生随机数，因为这个算法是固定的，所以产生的数也有重复的。

2024-05-04 09:45:00 1093

空空如也

空空如也