自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(120)
  • 收藏
  • 关注

原创 文献分享《Microbiome and cancer》

人类微生物群构成了一个复杂的多王国群落,与宿主在多个身体部位共生相互作用。宿主-微生物群的相互作用影响多 种生理过程和各种多因素的疾病条件。在过去的十年中,微生物群落被认为会影响多种癌症类型的发展、进展、转移 形成和治疗反应。虽然微生物对癌症生物学的影响的因果证据才刚刚开始被揭示,但增强对这种与癌症调节的相互作用和对癌症治疗的影响的分子理解被认为具有重要的科学重要性和临床相关性。

2024-05-27 22:15:00 877

原创 文献分享《Genetic mutations associated with metastatic clear cell renal cell carcinoma》

转移是癌症患者死亡的主要原因,早期发现和干预转移可显著改善其临床预后。我们对透明细胞肾细胞癌(CCRCC)患者治疗前原发肿瘤(PT)、肿瘤扩展(TE)和淋巴转移(LM)部位的RNA(表达)和DNA(突变)进行了测序和分析。在这里,我们报告了Plk5 c区附近的一个与淋巴转移特异性相关的三个核苷酸缺失。这种突变在PT中无法检测到,在TE中可以检测到,并在LM组织中占主导地位。因此,虽然只有少数原发性癌细胞携带这种突变,但大多数转移性细胞都有这种突变。

2024-05-27 19:45:00 629

原创 R语言:单细胞:挑选PC分群聚类

pdf(file = "聚类后UMAP.pdf",width =6.5,height = 5.5)> pdf(file = "聚类后TSEN.pdf",width =6.5,height = 5.5)> pdf(file = "前20个PC热图.pdf",width =7.5,height = 9)> pdf(file = "挑选分辨率.pdf",width =12,height =10)> pdf(file = "聚类热图.pdf",width =22,height = 16)#选择分辨率进行降维。

2024-05-21 20:59:57 947

原创 文献分享:single-cell rna sequencing analysis:astep-by-step overview

由于创新的样品制备和测序技术,单个细胞中的基因表达现在可以在一次实验中测量数千个细胞。自引入以来,单细胞RNA测序(scRNA-seq)方法已经彻底改变了基因组学领域,因为它们通过在单细胞分辨率下探索基因表达谱,为解决细胞异质性创造了前所未有的机会。然而,快速发展的scRNA-seq领域引发了各种分析方法的出现,旨在最大限度地发挥这种新策略的全部潜力。与基于群体的RNA测序方法不同,scRNA测序需要全面的计算工具来解决高数据复杂性,并跟上新兴的单细胞相关挑战。尽管有大量的分析方法,但缺乏普遍的标准化。

2024-05-21 20:59:20 724

原创 windows下ubuntu系统,bwa reads mapping

其中,GCA_000005845.2和GCF_000005845.2分别是大肠杆菌K-12 substr. MG1655基因组的两个不同版本,包含了该基因组的fasta格式序列文件(GCA_000005845.2_ASM584v2_genomic.fna和GCF_000005845.2_ASM584v2_genomic.fna)。#可以使用统计软件或脚本来进一步分析coverage.txt文件,以获得reads在参考基因组上的分布情况,比如平均覆盖度、覆盖度分布图等。我们选择一个作为大肠杆菌的基因组文件。

2024-05-21 08:36:35 442

原创 R语言:单细胞pcoa降维和去批次

DimPlot(seurat, reduction = "tsne",pt.size = 0.5)+theme_classic()+theme(panel.border = element_rect(fill=NA,color="black", size=0.5, linetype="solid"),legend.position = "right") #top为图列位置最上方,除此之外还有right、left、bottom(意思同英文)#绘制去批次后tsne单样本分布图。# 提取前10的高变基因。

2024-05-20 19:47:31 1375

转载 转载:mNGS的背景菌问题,以及AI在深度解析mNGS背景菌问题上展现出了专家级水平

下面的内容来自mNGS的“背景菌”一直是一个备受关注的问题,但不同的人对mNGS的“背景菌”可能有不同的理解。即便是专业人员对mNGS的认知也有巨大的差异,所以mNGS的“背景菌”没有一个共识上的定义。基于我自己的理解,mNGS的“背景菌”,只是口语上的习惯说法,更准确的表达应该是“污染微生物”。因为“背景菌”不仅仅只是细菌,还可能是真菌、病毒、寄生虫等。所以用“污染微生物”更准确。那用“背景微生物”如何?这个词虽然表达清楚了“微生物”,但是“背景”两个字还是太容易造成误解,或者大家的理解不一致。

2024-05-17 22:15:00 39

原创 R语言:lasso筛选基因

setwd("D:/28.lasso筛选基因")

2024-05-17 20:36:43 408

原创 资料总结分享:lasso回归,岭回归,svm,随机森林,

Lasso回归是一种线性回归方法,它可以用于特征选择和模型正则化。在Lasso回归中,除了最小化数据拟合误差外,还会加上一个惩罚项,这个惩罚项是特征系数的绝对值之和乘以一个参数。这个参数可以控制模型的复杂度,促使模型选择更少的特征,从而降低过拟合的风险。Lasso回归是一种常用的机器学习方法,特别适用于具有大量特征的数据集。Lasso回归(Least Absolute Shrinkage and Selection Operator regression)是一种用于特征选择和稀疏建模的线性回归方法。

2024-05-16 20:49:19 1058 2

原创 R语言:单细胞鉴定高变基因

pdf("标记前10高变基因.pdf")##标准化LogNormalize。> pdf("高变基因.pdf")# 提取前10的高变基因。

2024-05-16 20:48:57 245

原创 R语言:单细胞数据质控

mask2 <- seurat$nFeature_RNA >= 200 & seurat$nFeature_RNA <= 10000 #每个细胞中检测到的基因数量。> seurat[["percent.mt"]] <- PercentageFeatureSet(seurat, pattern = "^MT-")#线粒体基因。> seurat[["percent.rb"]] <- PercentageFeatureSet(seurat, pattern = "^RP")#核糖体基因。

2024-05-16 20:48:01 716

原创 R语言:cox分析列线图

title="",rank="sd",学习交流一下。

2024-05-15 22:15:00 951

原创 R语言:GO和KEGG分析

id.fc=rtdev.off()> id.fc=rt。

2024-05-15 21:15:00 1519

原创 机器学习概念:一些基本概念

损失函数(Loss Function)用于衡量模型预测结果与真实标签之间的差异。训练过程的目标是通过最小化损失函数来调整模型的参数,使其能够产生更准确的预测结果。

2024-05-15 01:45:00 1343 1

原创 R语言:热图,火山图

不太好看。g> g2交流学习。

2024-05-14 20:52:21 1115

原创 R语言:多因素cox

head(rt)#cox模型建立head(cox)

2024-05-14 20:51:52 862

原创 R语言:瀑布图的绘制

> library(maftools) > maf = read.maf(maf = 'combined_maf_value.txt') > pdf(file="waterfall.pdf",width=7,height=6)> oncoplot(maf = maf,top = 30, fontSize = 0.8 ,showTumorSampleBarcodes = F )> dev.off()> pdf(file="waterfall-gene.pdf",width=7,

2024-05-14 20:19:33 355

原创 R语言:ROC分析

inputFile="结果.txt"结果不好,但过程可以学习。

2024-05-14 20:18:50 331

原创 R语言:肿瘤突变负荷分析

通过lapply循环去读每一个样本的maf,然后通过rbind合并成矩阵,按行来合并。#通过合并path,还有sample sheet前两列得到每一个文件的完整路径。#替换.为下划线,转换成小写,sample_id替换成sample。函数,计算了基于 MAF 数据的肿瘤突变负荷(TMB)。#定义去除重复样本的函数FilterDuplicate。#删掉最后一列sample_type中的空格。#调用merge_maf函数合并maf的矩阵。#读入maf的sample sheet文件。#保存合并后的maf文件。

2024-05-13 20:33:42 571

原创 R语言:GSEA分析

安装软件包> if (!#加载软件包#设置变量> head(rt)head(rt))\\-(.*?)\\-(.*?#排序#GESA分析dev.off()dev.off()一起学习交流。

2024-05-13 19:04:49 716

原创 机器学习概念:几种常见的距离参数概念和应用

假设有两个点 P 和 Q,在一个多维空间中,P 的坐标为 (p1, p2, ..., pn) 并且 Q 的坐标为 (q1, q2, ..., qn),切比雪夫距离定义为这两个点对应坐标差的绝对值的最大值。然而,它也有局限性,例如在考虑地球表面上的实际距离时,应使用更复杂的距离度量,如大圆距离(Haversine公式),而不是简单的直线距离。其中,\(p_i\) 和 \(q_i\) 是点 P 和 Q 在第 \(i\) 维上的坐标,而 \(max\) 表示取这些差的绝对值中的最大者。

2024-05-13 18:51:01 923

原创 机器学习概念:决策树的一些概念

基于已知值的分裂:在决策树的分裂过程中,可以将具有缺失值的样本分配到多个子节点中。对于一个具有缺失特征值的样本,可以同时在每个可能的子节点中进行分裂,使得每个子节点都考虑到缺失值。这种方法可以在保留样本的同时利用其他特征的信息。缺失值作为单独的分支:为了处理缺失值,可以将具有缺失特征值的样本分配到一个单独的子节点中。这样,在分裂过程中可以为缺失值创建一个单独的分支。这种方法可以有效地处理缺失值,但可能会导致树的增长并引入更多的不确定性。

2024-05-13 18:50:36 1008 1

原创 资料总结分享:瀑布图,GESA,生存曲线

纵轴为对应的Running ES, 在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt score,峰值之前的基因就是该基因集下的核心基因。对于Enrichment score为正数的基因集而言,其核心基因是峰值之前的基因,对于Enrichment score为负数的基因集而言,其核心基因是峰值之后的基因。GSEA分析的是一个基因集下的所有基因是富集在这个排序列表的顶部还是底部,如果在顶部富集,可以说,从总体上看,该基因集是上调趋势,反之,如果在底部富集,则是下调趋势。

2024-05-12 22:53:36 819

原创 文章分享:《肿瘤DNA甲基化标志物检测及临床应用专家共识(2024版)》

DNA 甲基化是一种 DNA 的共价修饰,具体是指DNA 甲基转移酶(DNA methyltransferases,DNMTs)将甲基加到 DNA CpG 序列中胞嘧啶的 5'碳位,形成 5⁃甲基胞嘧啶的过程。成簇的 CpG被称为 CpG岛(CpGislands,CGIs),主要位于结构基因的启动子和第一外显子区域。DNA 甲基化标志物是癌细胞中的 DNA异常甲基化改变,这种异常甲基化贯穿于癌症发生和发展的全过程。与传统的肿瘤标志物相比,DNA甲基化标志物具有更早期、更无创、更精准等优点。

2024-05-10 22:38:48 1147

原创 python:做柱状图

plt.bar(categories, values, color=['red', 'green', 'blue', 'orange'])#颜色可以增加。出现报错,字体不可用,我们可以看到,设置的题目和x轴y轴的名称没有出现。plt.xlabel('类别', fontproperties=prop)plt.xlabel('类别', fontproperties=prop)plt.xlabel('类别', fontproperties=prop)# 添加标题和标签,并使用新宋体字体。

2024-05-10 02:15:00 740

原创 python:画折线图

plt.title('柱状图示例', fontproperties=prop)plt.xlabel('类别', fontproperties=prop)plt.ylabel('数值', fontproperties=prop)# 假设 xlsx 文件包含两列,一列是类别,一列是数值。# 添加标题和标签,并使用新宋体字体。#以上是自己的数据,可以加上这个。# 创建柱状图,并设置颜色。# 设置新宋体字体的路径。# 读取 xlsx 文件。

2024-05-09 22:15:00 350

原创 R语言:r做pcoa分析

geom_vline(xintercept = 0, color = 'gray', size = 0.4) + # 在0处添加垂直线条。+ geom_vline(xintercept = 0, color = 'gray', size = 0.4) + # 在0处添加垂直线条。+ geom_vline(xintercept = 0, color = 'gray', size = 0.4) + # 在0处添加垂直线条。> # 将 p2 放在第二行第一列。

2024-05-09 08:15:00 1152

原创 python:画饼图

plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140) # autopct 参数用于显示百分比。labels = df['Category'].tolist() # 假设 'Category' 列包含标签数据。sizes = df['Value'].tolist() # 假设 'Value' 列包含每个部分的大小数据。那我们进阶一下,我们现在要导入我们自己的数据来画图,假设我们的数据在一个xlsx中,那该如何?

2024-05-08 20:49:07 330

原创 R语言:r画韦恩图

ggsave("韦恩图.png", plot = p1, width = 10, height = 8, dpi = 150)+ text = element_text(size = 16) # 设置字体大小为 16。分辨率高了很多,这只是最基本的用法,想要画一个好图,得需要多次修改。> data <- read.xlsx("韦恩图种2.xlsx")

2024-05-08 20:48:44 653

原创 资料总结分享:VCF文件

VCF文件指的是Variant Call Format,即变异调用格式。它是一种常用的文本文件格式,用于描述基因组中的变异信息,如单核苷酸多态性(SNP)、插入缺失(Indels)等。

2024-05-08 00:45:00 3163

原创 R语言:卡方检验

χ2统计量衡量了观察值与期望值之间的偏差程度,它的计算公式为:χ2 = Σ [(观察频数 - 期望频数)^2 / 期望频数]。需要注意的是,P值(显著性水平)小于0.05,这意味着我们可以以95%的置信度拒绝零假设,即男性和女性病例的阳性率之间存在显著差异。我们看到这个数据男性阳性人数为1507,阴性为1126,女性阳性为1429,阴性为971,我们使用卡方检验看一看阳性率是否在性别上存在差异。这个意思是根据给定的数据,对比了男性和女性病例的阳性率,并进行了χ2检验来评估两者之间的差异是否具有统计学意义。

2024-05-07 19:56:24 866

原创 资料总结分享:SAM,bam,bed文件格式

表示read比对到RNAME这条序列的最左边的位置,如果该read能够完全比对到这条序列(CIGAR string为M)则这个位置是read的第一个碱基比对的位置,如果该read的反向互补序列比对到这条序列,则这个位置是read的反向互补序列的第一个碱基比对的位置,所以无论该read是正向比对到该序列,或是其反向互补序列比对到该序列,比对结果均是最左端的比对位置。SAM文件中的每一行包含了比对的序列ID、比对的标志、参考序列的名称、序列的起始位置、比对得分、序列的序列等信息。

2024-05-07 19:55:49 1205

原创 windows ubuntu子系统,4.HaplotypeCaller和Mutect2总结

指定tranches文件和校正文件分别为"𝑖𝑑.𝑊𝐸𝑆.𝑠𝑛𝑝.𝑡𝑟𝑎𝑛𝑐ℎ𝑒𝑠"和"id.WES.snp.tranches"和"{id}.WES.snp.recal.vcf" (--tranches-file和--recal-file参数)它用于对VCF文件进行校正和过滤,以提高SNP的质量和可信度。ATK的HaplotypeCaller命令对一个名为sample.txt的文件中的每个样本进行变异检测。> output.ann.vcf:将注释后的结果重定向到名为output.ann.vcf的输出文件中。

2024-05-06 19:32:46 1442

转载 文章分享《实验室自建肿瘤全景变异检测性能确认中国专家共识(2024版)》

CGP NGS检测的性能确认记录文档,应包含整个检测流程的标准操作规程文件,包括样本采集与处理、文库制备、测序、数据分析、性能确认结果报告等过程描述。实验人员需应严格遵循标准操作规程。

2024-05-06 19:31:07 66

原创 windows ubuntu sed,awk,grep篇:13.其他 awk 命令

因为我们指定的是最小宽度,通过之前的例子可以知道,如果字符串长度超过指定的宽度,字符串仍然会整个被打印出来。下面的例子,打印每个字段后,执行一个“回车”,在当前打印的字段的基础上,打印下一。隔符,即使用冒号分隔商品编号和销售量,在销售量列表中,每个数字之间以逗号分隔。如果想在字符串超出指定宽度时,仍然以指定的宽度把字符串打印出来,可以使用。宽度,如果字符串的宽度比该数字小,会在输出列左侧加上空格以凑足该宽度。使用一套算法产生随机数,因为这个算法是固定的,所以产生的数也有重复的。

2024-05-04 09:45:00 914

原创 windows ubuntu sed,awk,grep篇:12.awk 关联数组

请注意,我们并没有指定循环执行的条件,实际上我们不比关系数组中有多少个元素,因为。和以元素值排序相似,也可以取出所有索引值,排序,然后把他们保存在新数组中。连续的数字,实际上,它可以使字符串或者数字,并且不需要指定数组长度。想在不改变原有数组索引的情况下,使用新的索引值创建一个新的数组。的角度来说,数组的索引通常是字符串,即是你使用数组作为索引,数组索引可以是字符串,数组的最后一个元素就是字符串索引,即。作为索引值,它也不是两个索引,仍然是单个字符串索引,值为。将会丢失原始元素值,即索引值变成了元素值。

2024-05-03 10:30:00 659

原创 windows ubuntu sed,awk,grep篇:11.awk 分支和循环

该例用相反的顺序,从最后一个自动开始到第一个字段,逐个输出每个字段。号商品有的月份也没有卖出一件,但是并没有被打印,因为我们在循环中使用了。循环是一种进入控制判断的循环结构,因为在进入循环体前执行判断。区别在于,遇到某月为出售的商品时,退出脚本,而不是继续执行。循环用例执行一系列需要重复执行的动作,只要循环条件为。命令立即停止脚本的运行,并忽略脚本中其余的命令。语句检测条件,如果条件为真,执行相关的语句。文件中,每种商品的总销售量,输出结果和之前的。的退出状态码,如果不ᨀ供参数,默认的状态码是。

2024-05-02 10:30:00 595

原创 windows ubuntu sed,awk,grep篇:10.awk 变量的操作符

自增和自减改变变量的值,它可以在使用变量“之前”或“之后”改变变量的值。变量以字母开头,后续字符可以是数字、字母、或下划线。这个操作符解释了为什么在打印多个变量时,如果要使用。以逗号作为字段分隔符,包含五个雇员的信息,格式如下。下面的例子只打印偶数行。下面的例子不会打印任何信息,因为。下面例子中,有三处使用了字符串连接。把改变后的值应用到表达式的其它操作中。需要两个操作数的操作符,成为二元操作符。下面是一个有用的例子,显示所有登录到。下面的例子统计输入文件中所有的字段数。来存储公司所有雇员工资总和的变量。

2024-05-01 16:30:00 540

原创 windows ubuntu sed,awk,grep:9.awk 内置变量

如果你尝试认为地在输出字段之间加上冒号,会有如下输出。注意:默认的字段分隔符不仅仅是单个空格字符,它实际上是一个或多个空白字符。默认的字段分隔符是空格,如果你的输入文件中不是一个空格作为字段分隔符,的内容作为单独一行,把逗号作为字段分隔符,所以,它。当遇到一个包含多个字段分隔符的文件时,不必担心,语句打印多个变量时,输出内容会包含多余的空格。获取输入,把每个字段打印成单独一行,每条记录用。,使用都会分隔,然而输出结果却是以分号分隔。的变量是,每个变量之间会以空格分开。区域可以包含多个命令,下面的例子中,

2024-04-30 01:15:00 494

原创 windows ubuntu sed,awk,grep篇,8,Awk 语法和基础命令

当字段分隔符是单个字符时,下面的所有写法都是争取的,即可以把它放在单引号或双引号。这个例子中,输出结果各字段并没有很好地对齐,后面章节将会介绍如何处理这个问题。文件中写上足够多的注释,这样以后再次使用该脚本时,更易于读懂。上面的例子中,除了可以在命令行上执行外,还可以通过脚本执行。个文件的所有行上执行,然后在第二个文件的所有行上执行。区域,包含一个正则模式和一个动作,即在输入文件中搜索。准确地执行了我们要求的动作,它以空格作为分隔符,一个简单的例子,用来输出雇员姓名,职位,同时附带。

2024-04-29 20:36:29 1149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除