自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

转载 变异位点注释工具比较

如果你需要广泛的注释信息和较少的配置工作,VEP可能是不错的选择。无论你选择哪个工具,这些工具都是生物信息学研究中不可或缺的工具,有助于解释基因组变异的生物学含义。它的主要功能包括确定变异的功能影响、注释突变的影响,例如非同义突变、错义突变和无义突变等,并根据数据库提供的信息进行变异分类。它支持多种基因组版本,可以识别和注释各种类型的变异,如单核苷酸变异、插入/删除、结构变异等。VEP还提供了丰富的注释信息,包括变异的功能、频率、疾病相关性等,可以帮助研究人员更全面地了解变异的生物学意义。

2024-07-10 15:21:51 22

原创 ctDNA深度测序检测

cfDNA含量很低,大部分为1~100ng/mL,90%的健康个体每毫升血液中的cfDNA量不超过25ng,而肿瘤发生和进展时cfDNA量会明显增高,多数研究认为,在肿瘤细胞坏死,凋亡即自分泌过程中均可释放一定量的ctDNA进入血液循环系统。ctDNA来自肿瘤细胞的体细胞突变,因此,ctDNA是一种特征性的肿瘤生物标志物,可被定性、定量和追踪。对于无法获取足够的组织标本的肿瘤患者,例如无法进行活检或手术、穿刺受检者严重不适感、取材时间点受限、很难进行多次取样、肿瘤异质性等情况,更适合做ctDNA业态活检。

2024-06-21 10:47:30 208

原创 Excel中匹配函数的使用

一个表格里有两个子表,sheet1里有A、B两列。而sheet2里只有A列信息、B列是空白的,现在的目的是根据sheet2中的A列信息查找sheet1中A列对应的B列信息,补充sheet2的B列对应的信息。

2024-04-24 15:31:54 78

原创 基因引物序列的查找

勾选show results in a new window,这是结果在新页面展示的意思,最后点击Get Primers。点击进去,在Primer Parameters里将primerbank里检索到的引物序列粘贴上去。引物length一般在15-30bp,常用的为18-27bp,但不应大于38bp。Tm值范围为55-65°C,上下游引物Tm值不宜相差太大,最好不要超过5度。显示字母为不匹配,不匹配的多于5到6个说明引物不太合适。GC%一般为40%-60%,以45-55%为宜。第一步,先在NCBI官网。

2024-04-24 14:53:55 1333

原创 在linux服务器安装python模块matplotlib,明明已安装成功,但仍显示无此模块的解决方法

首先是升级pip:然后安装模块:将模块升级到最高版本:然后就可以解决了!!!

2024-04-03 09:27:28 210

原创 linux访问华为云OBS的方法

官方文档#打开命令行终端,执行命令下载obsutil工具#在软件包所在目录,执行以下解压命令。#进入obsutil所在目录,执行以下命令,为obsutil增加可执行权限#继续在目录中执行以下命令,如果能顺利返回obsutil版本号,说明安装成功。#使用永久AK、SK进行初始化配置:ak-k=sk-e=endpoint#使用临时AK、SK、SecurityToken进行初始化配置:ak-k=sk-t=token-e=endpoint其中,ak即。

2023-12-28 11:43:53 830

原创 VirSorter2的安装及使用

virsorter setup -d db -j 4 (这里的4代表用4个线程运行,这里可修改为自己服务器对应的线程,线程越大,运行越快)#激活vs2环境后使用-j 4个线程运行,输入all 所有结果,-w指定输入结果的文件夹。final-viral-score.tsv —— 表示每条序列的各分类类别得分表格。官方推荐的安装方法是用mamba安装,若没安装有mamba,可参考我这篇博文先安装mamba。final-viral-boundary.tsv —— 表示每条序列的信息表格。

2023-12-21 10:44:40 1378

原创 cap3在Linux下的安装

方法2,通过官网下载源代码。

2023-12-20 10:06:13 456

原创 mamba的安装教程

【代码】mamba的安装教程。

2023-12-13 14:12:31 3242

原创 常见的机器学习算法简介

它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。knn一般指邻近算法。

2023-11-14 15:55:08 82

原创 python安装模块出现网速问题的解决办法

当 pip install 模块名 出现报错:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org...如果是linux系统会区分python2还是python3,python3要用pip3。

2023-11-10 14:41:31 85

原创 解决:R语言ggsave保存的图片中的文字不显示

使用下面代码解决if(!

2023-11-02 14:50:33 376

原创 R语言中安装加载包的最便捷方式

这个命令的意思是:需要加载某包,先查找有没有下载过这个包,若不存在这个包,则运行的是直接一步安装并加载这个包,省去了先安装再加载的分步运行;若存在这个包,则运行的是加载这个包。这个命令的优点是:不会重复安装包,若脚本里写的是 install.packages("包名"),则会重复安装。require(包名))install.packages("包名")

2023-11-01 16:19:07 462

原创 16进制颜色码和对应的RGB格式

橄榄土褐色(褐绿色)(浓汤)乳脂,番茄等。

2023-11-01 15:00:21 1401

原创 R语言报错Error in .jcall(“RJavaTools“, “Ljava/lang/Object;“, “invokeMethod“, cl, : java.lang.OutOfMe

Rstudio报错:Error in .jcall("RJavaTools", "Ljava/lang/Object;报错原因:软件内存不足。

2023-10-09 15:52:25 265

原创 RNA-seq(转录组测序生信分析)去除rRNA的方法

S:生成的sam文件,这个可以不写,但若不写,会在终端直接输出很长很多的sam文件,虽然不影响结果,但个人觉得眼花,所以我写了这个参数和指定输出文件名。-un-gz:说明是双端数据,后面接-1和-2和分别对应的数据;若是单端数据,则参数换成--un-conc-gz,后面接-U和其对应的单端数据。-x :是对应的rRNA参考基因组,书写方式是——对应路径到前缀名。首先,在NCBI上下载对应参考基因组的RNA序列,下载链接如下。rRNA.fa是下载的rRNA序列,rRNA是所有索引的前缀名。

2023-09-22 16:30:25 638

原创 测序数据深度怎么求

先将二代测序的下机数据转化为fastq格式,可以然后比对到参考基因组得到sam文件,再将sam文件转化为排序好的bam文件,利用samtools软件就可以求出数据的测序深度。

2023-09-05 10:56:46 530 1

原创 生信各基础名词解释

是特定基因转录的DNA区域,在基因的非编码区,即编码区的上游,转录mRNA的时候与RNA聚合酶结合的位点,告诉RNA聚合酶从启动子开始转录。:mRNA上的3个相邻碱基,共有4的3次方种,即64种,其中决定氨基酸的密码子有61种,决定20种氨基酸(C1/4+2C2/4+C3/4=20氨基酸),另外,UAA、UAG、UGA这三个密码子不能决定任何氨基酸。:终止子也在基因非编码区,即编码区的下游,处于基因或操纵子的末端,是告诉RNA聚合酶转录到此结束的DNA序列。:指的是,基因转录产生的RNA,也称为转录本。

2023-08-18 11:01:39 1229 1

原创 全外显子组测序的bed文件如何制作

后面是对最终的结果进行排序,先按照第一列进行排序(-k1,1)再按照第二列以数值的方式进行排序(-k2,2n)。最后,再用bedtools把可能有重叠的部分整合之后,就能得到我们想要的结果。然后用gtf文件处理。

2023-08-17 16:59:29 534 1

原创 microRNA简介

物种间的差别最主要是由于microRNA表达的异时性变化和较小程度的空间表达差异。miRNA是一类小的调节RNA在细胞增殖,细胞死亡,细胞发育和分化,病毒感染,造血,肿瘤发生等生物过程中发挥重要作用。miRNA的序列结构在各个物种间具有高度的进化保守性,最具有microRNA 保守性的是let-7,它广泛存在于两侧对称的生物体中,其序列保守性令人吃惊。1、miRNA是广泛存在于真核生物中的一组短小的、不编码蛋白质的RNA家族,它们是由19-23个核昔酸组成的单链RNA(3“端可有1~2个碱基长度的变化)。

2023-08-01 13:47:22 547 1

原创 PRS分析在linux上实操

PRSice_BARPLOT_*.png:这个柱形图,是应用比较广泛的图,X坐标是不同P值,Y坐标是PRS风险得分的解释百分比(R2),柱形图最高的点表示该模型最优,比如下面图中,在P值为0.4463时,模型最优,解释的百分比是5%左右,P值为4.7e-18,极显著。PRSice.summy文件——这个文件,是给出最优模型的结果,比如适合的SNP个数,R2,回归系数,P值等信息。--base,是基础数据,这里是GWAS的结果,TOY_BASE_GWAS.assoc。--dir,默认是当前路径。

2023-08-01 10:56:41 280 1

原创 基础的常用的生信分析方法

PRS(Polygenic risk score)也叫PGS(Polygenic score)是在GWAS基础上发展起来的,PRS(多基因风险评分)是将与某种表型相关联的一组风险SNP的基因型效应加权来计算个体对该种表型(多指患病表型)的倾向的遗传学方法。可以看出GWAS的缺点是忽略了多基因的作用。多基因风险评分主要针对的是多基因遗传疾病,比如二型糖尿病、非酒精性脂肪肝、冠心病、哮喘和一些癌症等,这类疾病的特点是缺乏主效基因(对疾病发生发展有巨大作用的基因)并且可以通过改变环境因素来遏制其发生发展。

2023-07-21 16:50:35 2175 1

原创 基因检测中的PANEL是什么?

人体内的基因有2万多个编码蛋白质的基因,也有虽然不编码蛋白质,但是在人的疾病发生和天赋潜能中发挥重要作用的基因,人的基因的碱基数量高达64亿中,基因PANEL只是选择了部分基因。基因PANEL是一个基因组合,在基因检测中使用基因PANEL所检测的基因比单一的位点要多,比PCR技术检测的序列要长,相对来说,获得的基因信息量要多一些。3个基因是一个PANEL, 5个基因也是一个PANEL,100个基因也是一个PANEL,所以用基因PANEL进行基因检测,要首先看基因PANEL也就是基因组合中基因数量的多少。

2023-07-21 15:00:01 869 1

原创 机器学习各算法模型简介

输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。随机森林是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法(在集成学习中,主要分为 bagging 算法 和 boosting 算法)。全概率公式的含义是,如果A和A’构成样本空间的一个划分,那么事件B的概率,就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。

2023-07-20 11:54:39 269

原创 GWAS(全基因组关联分析)简介及简单实操

全基因组关联分析(Genome-wide association study),是指在人类全基因组范围内找出存在的序列变异,即单核酸多态性 (SNP) ,从中筛选出与疾病相关的SNPs。#将vcf文件转换成map、ped格式,然后转换为Plink二进制格式(fam,bed,bim)我认为数据分析是从全基因组分析得出的vcf文件开始的,以下分析流程来自。#安装plink和vcftools,我的服务器是ubuntu的。#R语言作图,我这里是将所有R代码写在脚本里。#下载数据,这里用的是狗的数据。

2023-07-11 17:07:44 3650 3

原创 SeuratData报错: No access to remote SeuratData repository, unable to install new datasets的解决方法

错误: No access to remote SeuratData repository, unable to install new datasets。

2023-06-07 15:42:40 401

原创 单细胞测序下游分析的细胞注释数据库的选择

DatabaseImmuneCellExpressionData由来自同名项目的分选细胞群体的bulk RNA-seq样本组成。NovershternHematopoieticData由来自GSE24759的经分类的造血细胞群体的微阵列数据集组成。利用R语言的singleR包进行自动注释,singleR自带的7个参考数据集,其中5个是人类数据,2个是小鼠的数据。MonacoImmuneData来自GSE107011的部分免疫细胞群体的bulk RNA-seq样本。

2023-05-10 11:07:31 1511

原创 NGS测序原理

Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。这两个系列的机器采用的都是边合成边测序的方法,它的测序过程主要分为以下4步。

2023-05-04 17:21:33 1111

原创 生信分析中常见的变异类型

CNV已经在许多疾病的分子诊断和非侵入性产前护理中得到应用,CNV将对包括癌症和心血管疾病在内的几种疾病的筛查、诊断、预后和监测产生巨大影响。InDel:Insertion/Deletion,插入或缺失,在基因组重测序进行mapping时,进行Gap的比对并检测可信的Short InDel ,如基因组上小片段>50bp的插入或缺失,在检测过程,Gap的长度为1—5个碱基。SNP:SNP的影响因素包括单碱基变异、转录区非同义突变、基因组分布不均等。SNV:SNV的产生原因是碱基替换、单碱基插入或碱基缺失等。

2023-05-04 16:32:59 1473

原创 SAM文件解读

在进行该第列值的计算时,如果取第6列的数值,一定要取出现M的值,S或H的值不能取。4)POS 1-Based的比对上的最左边的定位,表示read比对到RNAME这条序列的最左边的位置,如果该read能够完全比对到这条序列(CIGAR string为M)则这个位置是read的第一个碱基比对的位置,如果该read的反向互补序列比对到这条序列,则这个位置是read的反向互补序列的第一个碱基比对的位置,所以无论该read是正向比对到该序列,或是其反向互补序列比对到该序列,比对结果均是最左端的比对位置。

2023-05-04 16:03:05 2954

原创 R语言操作过程中遇到的问题集锦

1、‘rlang’报错。

2023-04-10 17:24:25 139

转载 处理原始scRNA-Seq测序数据:从reads到计数矩阵

参考基因组及其注释大多数scRNA-seq实验是使用人类或小鼠组织、器官或细胞培养物进行的。尽管这些基因组的初稿是在20年前发表的,但组装和注释的更新是相当定期的。有两个流行的组装文件来源: UCSC(他们的汇编被命名为hg19、hg38、mm10等),和GRC(GRCh37、GRCh38、GRCm38)。

2023-04-03 16:08:55 2154

转载 单细胞RNA-seq简介

单细胞RNA-seq概述RNA-seq允许以一种高效和具有成本效益的方式对样本中的转录物进行分析。它是00年代末的一项重大突破,此后变得越来越流行,在很大程度上取代了其他转录组分析技术,如微阵列。其成功的部分原因是,RNA-seq允许对样本中的所有转录物进行无偏见的采样,而不是局限于预先确定的转录物集(如微阵列或RT-qPCR)。通常情况下,RNA-seq被用于由细胞混合物组成的样本,被称为批量RNA-seq,并有许多应用。例如,它可以用来描述健康/疾病、野生型/突变

2023-04-03 11:32:31 1821

原创 picrust2基于ubuntu的安装

后面需要先安装mamba。安装源方式安装 参考于。创建环境、激活、测试。

2022-10-14 14:40:37 576

转载 qiime2-2022.8基于ubuntu的安装教程

补充:比较麻烦的是需要先启动conda环境,所以我是直接source activate qiime2-2022.8。如果已安装有wget,可省略此步。上步安装完成后,删除安装源。测试一下qiime能否使用。上面是官方文档的步骤。

2022-10-13 11:36:19 1261

原创 16s扩增子测序分析及解读报告的制作

16s扩增子分析

2022-08-16 15:54:33 325 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除