自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 收藏
  • 关注

原创 windows ubuntu:sed,awk,grep篇:5.sed 附加命令

打印当前模式空间的内容,然后从输入文件中读取下一行。可以改变这个流程,它打印当前模式空间的内容,然后清除模式空间,读取下一行进。命令,便立刻退出,当前循环中的后续命令不会被执行,也不会继续循环。后的内容,然后把该临时文件重命名为输入文件。打印当前模式空间的内容,并清空模式空间,读取下一行,然后把。会从另外一个文件读取内容,并在指定的位置打印出来。命令和追加命令类似,只不过是在指定位置之前插入行。选项,可以保持文件所有者不变。最后一行之后,把读取的内容打印出来。之前的例子的完成的功能都很像标准的。

2024-04-27 14:21:26 408

原创 资料总结分享:数据库篇:数据库设计范式

关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、第四范式(4NF)、第五范式(5NF)和第六范式(6NF)。满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多要求的称为第二范式(2NF),其余范式以此类推。一般说来,数据库只需满足第三范式(3NF)就行了。在创建一个数据库的过程中,范化是将其转化为一些表的过程,这种方法可以使从数据库得到的结果更加明确。这样可能使数据库产生重复数据,从而导致创建多余的表。

2024-04-26 20:31:41 448

原创 资料总结分享:数据库篇:设计步骤

数据库试运行合格后,数据库开发工作基本完成,即可投入正式运行了。但由于应用环境不断变化,数据库运行过程中物理存储也不断变化,对数据库设计进行评价、调整与修改等维护工作是一个长期的任务。在数据库运行阶段,对数据库经常性的维护工作主要是由数据库管理员 DBA 完成的。数据库的维护工作包括4个方面。

2024-04-26 19:42:01 467

原创 windows ubuntu:sed,awk,grep篇:4.执行 sed

因此,建议把写脚本时的初衷作为注释,写到脚本里面。为了修改输入文件,通常方法是把输出重定向到一个临时文件,然后重命名该临时文件。默认不会修改输入文件,它只会把输出打印到标准输出上。或许这正是你想要的,但是务必小心。一个保护性的措施是,脚本中,然后调用脚本名称来执行它们一样,你也可以把。去掉,然后再执行一次,观察它是如何运行的。首先建立下面文件,里面包含了所有要执行的。是比较晦涩难懂的语言,所以你现在写下的。最后,为了继续下面的例子,把原来的。脚本文件,里面包含所有要执行的。在执行很长的命令,比如使用。

2024-04-26 19:39:40 422

原创 windows ubuntu:sed,awk,grep篇:3,sed正则表达式

使用回溯引用,可以给正则表达式分组,以便在后面引用它们。出现在正则表达式开头时,它才匹配行的开头。下面是一些使用正则表达式进行替换的例子。字符集匹配方括号中出现的任意一个字符。用来匹配两边任意一个子表达式。匹配一次或多次它前面的字符,例如 空格。的命令中,都用到了正则表达式,包括。匹配除换行符之外的任意单个字符。次或一次它前面的字符。匹配连续两个相同的数字,如。个或多个其前面的字符。匹配至少一个或多个空格。在方括号中,可以使用连接符。后面没有任何信息的行。表明精确匹配该正则至少。表明精确匹配该正则至少。

2024-04-25 20:46:01 744

原创 资料总结分享:数据库:1.设计概念

根据一个单位的信息需求、处理需求、数据库的支撑环境和数据库的设计特点,按照规范化设计的方法,考虑数据 库及其应用系统开发全过程,设计数据模式以及典型的应用程序,就是所谓的数据库设计。数据库设计通常包括需求分析, 概念结构设计,逻辑结构设计,物理结构设计,数据库实施,数据库运行和维护六个阶段。数据库设计(Database Design)是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库模式,建立数据库及其应用系统,使之能有效地存储数据,满足各种用户的应用需求。

2024-04-25 20:32:05 833

转载 文献分享:《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》

宏基因组测序(mNGS)在新发突发传染病以及常规检验阴性的感染性疾病诊断中发挥了重要作用。近期,国内相继发表了多个共识阐述了临床应用及实验室规范,但生物信息分析程序及方法也是mNGS重要环节,而目前学界尚未有一致的认识。为提高临床对mNGS结果的理解,本共识根据国内外的发展现状,结合国内测序实验室常规做法,阐述生物信息学分析的规范化管理内容。

2024-04-25 20:05:14 12

原创 windows ubuntu sed,awk,grep篇:2:sed 替换命令

这里不再显示下面例子的结果,因为它们的结果和上面的例子。然而,如果你使用的是具体的字符串,那么。这些选项未必有什么作用,因为你可以在需要的地方写出精确的字符串,而不需要使用这些。当替换操作执行成功后,它把替换后的结果保存的文件中。一个命令改变了模式空间的内容,第二个命令会在改变后的模式空间上执行。下面的例子,如果单词第一个字符为大写,那么会给这个大写字符加上。当替换操作完成后,打印替换后的行。移动的输入文件的下一行,然后重复执行第一步,即读取数据。标志时,它会把紧 跟在其后面的字符当做大写字符来处理。

2024-04-24 20:27:11 664

转载 文献分享:《病原宏基因组高通量测序临床本地化检测规范专家共识》

传统的病原学检验技术覆盖的微生物种类少,难以满足临床需求。宏基因组高通量测序技术 (metagenomic next-generationsequencing,mNGS) 可以不基于假设、无偏倚地检测疑似感染患者标本中的病原微生物,扩大病原体检测种类,缩短检测时间,提供可用于患者诊断、制定治疗方案的关键信息,有效提升感染性疾病的诊疗水平,助力抗菌药物合理应用;还有助于解决新发、罕见、疑难病原体的漏检问题。mNGS在很大程度上提高了临床疑难危重感染、罕见和新发病原体感染的诊断水平和救治能力。

2024-04-24 19:18:33 7

原创 windows ubuntu linux三剑客,sed awk grep 篇,1.

资料来源于《SedandAwk101Hacks》,大家有兴趣可以买一本,也可以关注我,我更新完它。在执行完命令后会默认打印模式空间的内容,既然如此,那么你可能会问为何还需要命。上面的例子里面,就已经使用了逗号参与地址范围的指定。默认匹配所有行,所以下面的例子什么都不会输出,因为它匹配。命令的语法和结构,但并不解释命令的含义,后面会详细解释。配合逗号使用,可以指定相的若干行,而不是绝对的几行。用来删除行,需要注意的是它只删除模式空间的内容,和其他。曾经,我花费大半月将它们跑完,现在啥都忘了,还是要常用。

2024-04-23 20:44:14 651

原创 windows ubuntu 子系统:肿瘤全外篇,bam质控

这条命令使用 samtools view 命令来查看 949743-T_L2_1_recalibrated_reads.bam 这个 BAM 文件的内容,并通过管道将输出传递给 less -S 命令进行分页查看。参数指定感兴趣的区域文件,这里使用的是一个 BED 格式的文件,其中包含了人类基因组 hg38 版本的外显子区域信息。该命令将输出 BAM 文件的一些统计信息,包括总读取数、比对上参考序列的读取数、比对到不同位置的读取数等。单独出现的 reads 数:48,005 (占总读取数的 0.05%)

2024-04-22 20:24:55 624

原创 资料总结分享:临床重要数据库

通过这一图谱,可以深入了解人类遗传多样性和变异的模式、频率以及与疾病相关的遗传变异。数据库结构: dbSNP数据库采用分层的数据库结构,包括核心数据库(core database)、外显子数据库(exon database)、综合数据库(integrated database)等多个子数据库,每个子数据库都针对特定的数据类型或应用场景进行了优化和整合。该浏览器提供了丰富的基因组信息,包括基因组序列、基因结构、转录本、调控元件、基因组变异等,支持用户在基因组水平上进行高效的数据查询、可视化和分析。

2024-04-22 19:58:38 629

原创 资料总结分享:癌症生存率和生存期

无法全面评估治疗效果: LCR只反映了局部病变的控制情况,无法全面评估治疗对患者总体生存或生活质量的影响,因此需要结合其他生存期指标如总生存期(Overall Survival,OS)或生活质量评估来进行综合评估。早期指标: 与总生存期(Overall Survival,OS)相比,TTP可以更早地评估治疗的效果,因为它关注的是治疗后疾病进展的时间,而不是患者的生存时间。治疗前的生存率指的是患者在接受任何治疗之前的预期生存率,而治疗后的生存率是指患者在接受治疗后的预期生存率。

2024-04-20 11:37:51 910

原创 文献分享:《Gene mutation profiling and clinical significances in patients with renal cellcarcinoma》

在全球范围内,肾细胞癌(RCC)是最常见的肾癌类型,占所有病例的90%和95%。男性肾细胞癌的发生率明显高于女性。肾细胞癌起源于肾近端卷曲小管上皮细胞的恶性转化。肾细胞癌的治疗包括手术治疗、靶向治疗、免疫治疗等。在过去的几十年里,肾细胞癌患者的预后取得了很大的改善。肾细胞癌发展的危险因素包括吸烟、肥胖、高血压和遗传因素。与其他癌症一样,RCC患者也存在许多基因突变,包括Kras、BIRC5、XIAP、MCL-1、HIF1、HIF2和AKT。特别是3号染色体上Von Hippel-Lindau(VHL)

2024-04-19 23:45:00 992

原创 windows ubuntu 子系统,肿瘤全外篇,3. gatk中的BaseRecalibrator,HaplotypeCaller,ApplyVQSR

2中,我们对测序数据进行了比对,bam排序,标记重复和建立索引。这次我们就直接可以进入gatk流程了。

2024-04-18 20:17:50 1395

原创 资料总结分享:《全外显子测序数据的流程和原理》

所以这里大家需要记住一个重点,PCR扩增原本的目的是为了增大微弱DNA序列片段的密度,但由于整个反应都在一个试管中进行,因此其他一些密度并不低的DNA片段也会被同步放大,那么这时在取样去上机测序的时候,这些DNA片段就很可能会被重复取到相同的几条去进行测序,但是由同一个模板分子扩增出来的重复子文库只对应单一模板,在分析过程中应将重复片段予以去除。因此,我们需要先把这一大堆的短序列捋顺,一个个去跟该物种的参考基因组比较,找到每一条read在参考基因组上的位置,然后按顺序排列好,这个过程就称为测序数据的比对。

2024-04-17 22:00:00 656

原创 windows ubuntu 子系统:肿瘤全外篇,2. fq 数据质控,比对。

首先我们先下载一组全外显子测序数据。nabi sra库,随机找了一个。来自受试者“16177_CCPM_1300019”(SRR28391647, SRR28398576)的样本“16177_CCPM_1300019_BB5”的基因组DNA配对端文库“0369547849_Illumina_P5-Popal_P7-Hefel”的Illumina随机外显子测序下载下来,转为两个配对的fq文件。过程可参考这样我们得到了两个配对的fq文件,如果太大,可以压缩一下。

2024-04-17 20:55:51 1248

原创 windows ubuntu子系统,肿瘤全外篇1.安装软件及建立数据库

wget -c https://github.com/broadinstitute/gatk/releases/download/4.1.2.0/gatk-4.1.2.0.zip #conda安装GATK没作用,这个下载太慢,而且有时候下载还需要填写什么用户名。在中国,下载这个软件还挺难的。#GATK是基于Java开发的,所以在运行GATK之前,需要确保Java已经正确安装并且在系统的环境变量中配置了Java的路径。#接下来登录gatk官网(非常慢),迅雷下载gatk-4.1.2.0,好不容易成功。

2024-04-16 21:29:23 640

原创 收集资料分享:《肿瘤TMB,SNP,CNV,INDEL,MSI》

TMB是指肿瘤基因组内存在的体细胞突变位点数量,可以间接反映肿瘤产生新生抗原的能力。由于早期研究多基于WES检测,因此TMB通常是指单位基因组外显子编码区域(外显子组,exome)的突变数量(mutations, muts),单位为muts/exome。虽然WES是检测TMB的金标准,但WES时间成本和分析成本较高。经过多项大样本研究验证后,TMB检测从WES扩展到了更切合临床实际的靶向二代测序(next-generation sequencing panel, NGS panel)。

2024-04-16 19:45:00 936

原创 windows ubuntu子系统,单细胞篇 1.cellranger安装与分析

使用"ls SRR*"查找以"SRR"开头的文件,然后使用"while read id"逐行读取这些文件名,对每个文件执行以下操作:使用。--localmem=15:指定本地内存的使用量,单位为GB。raw_feature_bc_matrix:原始barcode信息,未过滤的可以用于构建矩阵的文件,可以不看;这是我最近跑的一个流程,说实在的,博大精深,以后我会看一些文献,分享一下,流程好跑,背景知识很难啊。--id=$id:指定输出结果的唯一标识符,通常是分析的样本名称或编号,指定输出文件夹的名字。

2024-04-15 21:32:09 1339

原创 文献分享:《随机宏基因组测序数据质量控制和去宿主的分析流程和常见问题》

组合分析流程的安装、使用方法和结果解读,实现数据质量评估、质量控制和去宿主污染、质量再评估的分析过程。也对各步骤常见问题和解决方法进行了总 结,以便同行更准确、高效地实现宏基因组数据的预处理,为下游分析提供高质量的宏基因组数据。非常适合新手入门和实践。大家有兴趣可以去看看,并上手实践一下。文章在网站上很容易可找到,我就不分享了,怕侵权。我向大家分享早期我看的刘永鑫教授课题组的一篇注重实践的文章,我是在微信公众号上看到的。主 要介绍了 FastQC、

2024-04-15 19:47:41 152

原创 文献分享:《基于中国人群的BRCA胚系突变筛查专家共识(2024年版)》

本共识围绕中国人群BRCA胚系突变筛查的目标人群、筛查时机、检测前遗传咨询、检测技术和质量控制、突变的规范化解读与报告、检测后遗传咨询等多个方面开展了德尔菲问卷调查,参与的专家来自全国15个省、自治区、直辖市,所有专家均具有博士学位并任职于大型教学医院或知名大学,在遗传性肿瘤的健康管理筛查、临床诊断以及治疗等领域具有一定的代表性和权威性。在纳入调查的14条意见中,推荐强度为A的强推荐意见为12个,推荐强度为B的普通推荐意见为2个(表3)。

2024-04-13 13:15:00 776

原创 文章分享:《二代测序临床报告解读指引》

关键词] 二代测序;报告解读;指引目 前 二 代 测 序(next generation sequencing,NGS)已成为中国临床肿瘤医生常用检测工具,中 国 临 床 肿 瘤 学 会(Chinese Society of Clinical Oncology,CSCO)肿瘤生物标志物专家委员会发布的第 1 个 NGS 临床应用调研显示,大于 30%的肿瘤科医生每月 NGS 检测量超 5 个,而中国超过 90%临床医生需要 NGS 报告解读支持。

2024-04-12 19:15:00 717

原创 文章分享:ctDNA高通量测序临床实践专家共识(2022年版)

【摘要】 循环肿瘤DNA(circulating tumor DNA,ctDNA)高通量测序在肿瘤临床诊疗中发挥越来越重要的作用,但其临床检测标准和应用范围尚缺乏统一认识。中国抗癌协会肿瘤标志专业委员会组织相关专家,结合国内临床实践,参考国内外文献,从ctDNA生物学特征、检测影响因素,ctDNA高通量测序检测结果的临床应用价值和范围,以及ctDNA高通量测序检测体系的标准化建设等方面进行评述,提出专家意见,经专家组讨论并形成7条专家共识,为ctDNA高通量测序的临床应用和检测提供参考,以促

2024-04-11 22:45:00 648

原创 《高通量测序技术》分享,生物信息学生信流程的性能验证,以肿瘤NGS基因检测为例。

这是这本书,第四章第五节的内容,这一部分是以NGS检测肿瘤基因突变为例,描述了其原理和大概流程,这和以前我分享的病原宏基因组高通量测序性能确认方案可以互相补充,大家可以都看一下,但是想要真正的弄懂,还需要参与具体的项目。

2024-04-10 22:00:00 180

原创 《高通量测序技术》分享,第二章文库构建原理及特点

本来,我是想总结一下文档,再分享出来,后来感觉这本书的作者写的太好,很细,怎么总结也感觉不全面(其实是很懒,也没有时间),况且,我是做生信的,这一章更适合做实验的同志阅读,我们跑生信的看一看,了解一下上游,与实验人员更好的沟通,不过,我问过做实验的同事,这本书上的内容和实际还是有差距的,大家可以了解一下原理和过程。我最近找到一篇神书,是李金明先生所著。真是后悔看到这本书太晚了,我将书中的内容分享给你们。

2024-04-09 19:15:00 192

原创 python 将批量处理二进制json文件转为文本格式的json。

这个需求来自我在一个json编辑网站上,制作json文件,最后发现它们都转化为了二进制json。with open(input_path, 'rb') as binary_file: #文本json,只需加"r",二进制json需要"rb"模式。json_data = json.loads(binary_data.decode('utf-8-sig')) #去掉bom头。# 只处理以'.json'为扩展名的文件。# 读取二进制JSON文件。input_directory = '输入目录'

2024-04-08 21:45:00 330

原创 文献分享:《宏基因组高通量测序技术应用于感染性疾病病原检测中国专家共识》

【摘要】 宏基因组高通量测序技术通过对临床样本中微生物和宿主核酸的测序分析,可以无偏倚地检测多种病原微生物,正在逐渐应用于临床感染性疾病病原检测,然而业界对该技术的临床适应证、实验流程、质量管理、性能验证和报告解读等方面仍有困惑。中华医学会检验医学分会临床微生物学组、中华医学会微生物学与免疫学分会临床微生物学组、中国医疗保健国际交流促进会临床微生物与感染分会组织专家对上述问题进行了讨论并撰写了专家共识,对一些关键问题给出了推荐意见和处理方法,希望有益于业界的良性互动,促进该技术规范和发展,为

2024-04-07 22:15:00 636

原创 文献分享:《宏基因组高通量测序技术的临床应用:现状、挑战与前景》

【摘要】传统微生物学检测方法难以满足临床复杂多变的病原体检测需求。近年来,新兴的宏基因组高通量测序(metagenomic next-generation sequencing,m NGS)技术被广泛应用于各种感染性疾病诊断、新发及突发传染病病因分析、耐药基因检测和宿主免疫应答分析等领域。m NGS检测流程十分复杂,检测过程中每一步骤引入的变异均会影响检测结果的准确性。检测方法缺乏标准化、人员认知和能力不足、仪器试剂成本高昂是m NGS临床推广面临的主要障碍,因此亟需对检测方法进行标准化、规

2024-04-04 09:45:00 781

原创 文献分享:《Clinical metagenomics》

摘要|临床宏基因组下一代测序(mNGS)是对患者样本中微生物和宿主遗传物质(DNA和RNA)的综合分析,目前正迅速从研究向临床实验室发展。这种新兴的方法正在改变医生诊断和治疗传染病的方式,其应用涉及广泛的领域,包括抗菌素耐药性、微生物组、人类宿主基因表达(转录组学)和肿瘤学。在这里,我们重点关注在临床实验室实施mNGS的挑战,并解决潜在的解决方案,以最大限度地提高其对患者护理和公共卫生的影响。图1|宏基因组测序的临床应用。|在传染病诊断中的应用包括从初

2024-04-03 20:00:00 930

原创 文章分享:《呼吸道传染病标本采集及检测专家共识》

独立的实验室以及获得医疗器械注册许可的高通量测序平台:由于样品通常是分批处理的,每个批次都需要监控物种检出的频率,建立正常物种的频率基线,用于判断和排除可能的污染,因此,实验室空气洁净度、仪器、试剂批次等需要建立标准对照和监测系统,实验室存在的背景微生物需定期汇总更新,操作人员需明确记录和严格遵守实验室守则,建立自动化检测平台,将分析工作流程分为多个离散步骤以通过轮换执行,这有助于减少或避免实验误差和错误的出现。对样本的检测,如对病原菌的分离纯化、生化鉴定、核酸提取、涂片等可以在生物安全二级实验室内进行。

2024-04-02 21:00:00 1387

原创 12.windows Ubuntu 子系统:构建非冗余基因集

CD-HIT的基本思路是首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第一个序列类,然后依次对序列进行处理,如果新的序列与已有的序列类的代表序列的相似性在cutoff以上则把该序列加到该序列类中,否则形成新的序列类。③基于word filter的方法使得使用每个长度的word能够处理的冗余性水平有限,如使用长度为2的word只能够得到相似性在50%以上的序列,长度为3的word只能够得到相似性在66.7%以上的序列类,类似的,长度为5的word只能够得到相似性在80%以上的序列。

2024-03-31 18:19:14 881

原创 11.windows ubuntu 子系统 contig ORF(开放阅读框)预测。

Prodigal(PROkaryotic DYnamic programming Gene-finding ALgorithm)是一款用于原核生物基因预测的软件,由美国橡树岭国家实验室和田纳西大学的Doug Hyatt团队于2010年正式发表,2012年增发MetaProdigal专用于宏基因组数据,是目前应用最广泛的基因预测软件之一。前面我们组装了contig,接下来我们要对contig进行 ORF(开放阅读框)预测,这是是一个重要的过程,其目的是识别和预测可能编码蛋白质的区域。接下来我会继续分享。

2024-03-31 10:53:26 787

原创 文章分享:协和文章《病原宏基因组高通量测序性能确认方案》

摘要:宏基因组学利用新一代高通量测序技术,以特定环境下病原体基因组为研究对象,在分析病原体多样性、种群结构、进化关系的基础上,进一步探究病原体的群体功能活性、相互作用及其与环境之间的关系,发掘潜在的生物学意义。目前,绝大部分的宏基因组学研究都集中在临床价值评价,宏基因组检测临床应用前分析性能确认的研究相对空白,北京协和医院检验科研究团队结合多年病原宏基因组检测的经验和国内外相关研究成果,就病原宏基因组项目医院本地化开展前的性能确认工作,从临床预期用途、方法学建立、性能确认、标准操作作业书4个方

2024-03-29 20:15:00 1233

原创 10.windows ubuntu 组装软件:spades,megahit

2.--tmp-dir 临时文件保留路径在ubuntu中好像只能设/tmp路径,设置其它路径,否则会报错没有操作权限。3.要指定python程序的路径,要用根用户权限,即sudo /home/guozihan/miniconda3/envs/spades_env/bin/python,但是在正规的linux中没有遇到这个问题。-k :kmer数,一次可以输入多个,用逗号分隔,数值从小到大排列,kmer最大为127,数值必须是奇数,一般自动选择即可,--sc 参数,则默认值为 21,33,55。

2024-03-28 21:00:51 1198

原创 9.windows ubuntu 子系统,centrifuge:微生物物种分类。

centrifuge是一种非常快速且省内存的软件,用于对微生物样本中的DNA序列进行分类,具有比其他领先系统更好的灵敏度和可比的准确性。: Centrifuge 不仅适用于 metagenomic 数据,也可以用于其他类型的测序数据,例如 RNA-Seq 数据,从而帮助研究人员更全面地理解微生物组成和功能。:指定要使用的索引文件,该索引文件包含了对应基因组序列的信息,用于比对和分类DNA测序数据。:指定使用的线程数,加快计算速度,特别是对于大规模DNA测序数据的处理更为重要。

2024-03-27 20:31:13 811

原创 8.windows ubuntu 子系统:karken2,bracken微生物物种注释

第四种方法为 在windows环境下登录官网https://benlangmead.github.io/aws-indexes/k2下载自己想要的数据库,官网中有诸多类型的数据库。: 指定输出详细报告文件的名称为 A1.bracken.S.kreport,该文件包含了对每个分类水平的物种丰度估计结果。: 指定输出文件的名称为 A1.kraken,该文件包含了每个 reads 的分类结果。: 指定输出文件的名称为 A1.bracken.S,该文件包含了物种丰度的估计结果。官网里面有很多已经做好的数据库。

2024-03-26 20:27:45 631

原创 7.windows ubuntu 子系统:测序数据去宿主-bowtie2。

最终生成 hg38.1.bt2 , hg38.2.bt2, hg38.3.bt2, hg38.4.bt2 , hg38.fa, hg38.rev.1.bt2, hg38.rev.2.bt2这几个文件。: 这是一个循环语句,逐行读取 sample.txt 的内容,并将每行内容赋值给变量 id。bowtie2还有很多参数,需要根据需要调整,建立一个流程并不难,难的是需要,比对结果,根据需要调整参数。命令用于连接文件并输出到标准输出。: 管道符号,用于将一个命令的输出传递给另一个命令的输入。

2024-03-25 20:49:16 748

原创 6.windows ubuntu 子系统 测序数据质量控制。

conda install -c bioconda Trimmomatic -y #安装 Trimmomatic,Trimmomatic是基于Java开发的,因此需要提前安装Java,才能使用Trimmomatic。:指定第二个输入文件的路径,这通常是第二对(read2)原始测序数据的文件路径。:指定第一个输出文件的路径,这是处理后的第一对测序数据(read1)的输出路径。:指定第二个输出文件的路径,这是处理后的第二对测序数据(read2)的输出路径。

2024-03-24 19:48:27 708

原创 5.windows Ubuntu 子系统,测序数据质量检测。

我们在得到一组或几组测序数据后,比如从测序公司拿到的测序数据为fastq.gz格式,首先我们需要对它们进行MD5检验,确保数据没有问题后才可进入以后的程序。:F如过低的碱基质量、过高的测序错误率、测序适配污染等问题,有助于及时发现数据质量异常并采取相应的处理措施。:包括测序读长、碱基质量分布、测序错误率、测序深度等方面的统计和图表展示,帮助研究人员了解测序数据的质量情况。这一项检查每个碱基位置的碱基质量分数,以评估测序数据的质量是否均匀。这一项分析每个序列的平均质量得分,帮助评估整体序列质量。

2024-03-23 20:17:52 706

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除