自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(88)
  • 收藏
  • 关注

原创 爬虫:爬取MDPI杂志中国作者单位和邮箱

它们能够模拟人类浏览网页的行为,如访问网页、解析网页内容、甚至填写表单和点击链接等,从而帮助我们从互联网上大量收集和处理数据。:对于复杂的网站,可能还需要处理JavaScript渲染的内容、管理cookies、处理登录认证、设置延时避免被封禁等高级功能,这时可能需要使用Selenium、Scrapy等工具。Python爬虫是数据分析、机器学习、市场研究等领域的重要工具,但使用时应确保行为合法合规,尊重网络礼仪。: 一个更高级的爬虫框架,适合大规模数据抓取项目,提供了完整的解决方案,包括调度、解析、存储等。

2024-08-27 11:00:18 490

原创 MySQL05: 表合并

获取左表(Prices)的所有记录,包括与右表(UnitsSold)匹配的记录以及左表独有的记录(右表部分为 NULL)。RIGHT JOIN与LEFT JOIN相反,它返回右表(右边的表)的所有记录,以及左表中与右表相匹配的记录。如果左表中的某行在右表中找不到匹配项,或者右表中的某行在左表中找不到匹配项,那么这些行都不会出现在结果集中。LEFT JOIN返回左表(左边的表)的所有记录,以及右表中与左表相匹配的记录。不过,需要注意的是,这样的条件会直接影响到连接操作,确保它符合你的查询意图。

2024-08-16 14:12:50 368

原创 MySQL04: 查询语句

按照区和建成年份分组,比如第4行为浦东区1992年建成的小区中,总共有30套房子,总面积1778.41,平均每套房子价格372.8667万,最贵的房子为600万,平均房价36011元/平米。:定义了窗口的范围,可以是CURRENT ROW、UNBOUNDED PRECEDING、UNBOUNDED FOLLOWING或者它们的组合,来指定窗口的开始和结束位置。查询命令中必须使用的组合,select相当于tidyverse中的select选择列,from是选择的表格的名字。

2024-08-13 09:57:35 1072

原创 MySQL03: 创建表格与导入表格

在MySQL中,主键还可以被定义为AUTO_INCREMENT,这样每当插入新记录时,主键字段的值会自动递增,简化了数据插入过程,避免了手动指定唯一标识的麻烦。: 唯一键约束确保了表中某一列或多个列的组合值是唯一的,防止插入重复的值。: 主键的值能够唯一地标识表中的每一行记录,确保不会有两行数据拥有相同的主键值。: 主键自动成为表上的索引,这意味着通过主键查询数据将非常高效,尤其是在大数据量的情况下,能够显著加快查询速度。规定列的数值类型、长度、列中的值是否可以为空,是否可以重复,值的可选范围等。

2024-08-12 21:52:04 526

原创 MySQL02: 常用数据类型

ENUM从一个集合中选择一个字符串或者为 NULL,比如性别栏可以设置成仅允许["Male", "Female", "Prefer not to say"]CHAR可以设置长度,默认是 1,当实际输入<设定的位数时,在输入字符右边增加空格,以达到定长的目的。SET可以给定的集合中选择多个字符串,比如 SET("足球", "篮球", "羽毛起", "乒乓球")默认数值是有符号的,即有正有负,如果限定数据为非负,需要加上UNSIGNED关键字。主要的数据类型,包括字符串、数值、日期时间。

2024-08-10 14:48:41 879

原创 100个GEO基因表达芯片或转录组数据处理GSE166193-GPL16686平台(014)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)transid是我写的一个R函数,有需要可以联系我,加入交流群。

2024-08-08 13:43:52 363

原创 100个GEO基因表达芯片或转录组数据处理GSE23317(013)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)transid是我写的一个R函数,有需要可以联系我,加入交流群。

2024-08-04 13:59:23 156

原创 100个GEO基因表达芯片或转录组数据处理GSE60542(012)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)transid是我写的一个R函数,有需要可以联系我,加入交流群。

2024-08-03 21:37:37 419

原创 100个GEO基因表达芯片或转录组数据处理GSE35570(011)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)transid是我写的一个R函数,有需要可以联系我,加入交流群。

2024-07-31 12:53:16 417

原创 100个GEO基因表达芯片或转录组数据处理GSE113865(010)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)transid是我写的一个R函数,有需要可以联系我,加入交流群。

2024-07-30 17:44:52 425

原创 sklearn决策树可视化

例如,如果一个节点写着“petal width <= 0.8”,那么从这个节点延伸出去的左侧分支可能代表年龄petal width <= 0.8的情况(判断年龄petal width <= 0.8为真),右侧分支则代表大于0.8的情况(判断为假)。当决策树分叉时,通常一个方向代表特征值满足某个条件(可以理解为“判断为真”),另一个方向则代表不满足该条件(即“判断为假”)。:每个内部节点(非叶节点)代表一个特征的测试条件,根据特征的不同取值,数据被划分到不同的子集。使用鸢尾花数据集建立一个简单的决策树模型。

2024-07-25 14:16:09 309

原创 使用infercnv对单细胞转录组进行拷贝数变异推断(上,原理)

图1展示了正常细胞(WT)拷贝数变异的情况:正常细胞原本有2份 DNA 拷贝(CN=2),但是在肿瘤细胞中,由于错误的删除/扩增导致 DNA 拷贝数不再是2(CN=0/1/3/4),这种情况就被称作基因CNV。它通过比较肿瘤细胞与正常细胞(或参照细胞)的基因表达水平,推断出肿瘤细胞中的染色体拷贝数变化,如扩增或缺失,进而帮助识别恶性细胞的特征。:考虑到肿瘤样本中通常含有不同比例的正常细胞(即污染),InferCNV 还能够估计肿瘤细胞的纯度,即恶性细胞的比例,这对于准确推断拷贝数变异至关重要。

2024-07-24 15:20:35 889

原创 综述阅读:鼻咽癌

摘要鼻咽癌的地理分布具有明显的特点,在东亚和东南亚尤为常见。过去十年的流行病学趋势显示,其发病率逐渐但稳步下降,死亡率也大幅降低。这些发现可能反映了生活方式和环境的变化,对病理和风险因素的增强理解,人群筛查,影像技术的进步,以及个性化的综合放化疗策略。特别是,血浆Epstein-Barr病毒(EBV)DNA已被用于人群筛查、预后预测、治疗反应预测以适应治疗调整,以及疾病监测。此外,调强放疗的广泛应用和化疗策略(诱导、同步、辅助)的优化,有助于提高生存率并减少毒性。在现有的新疗法发展中,免疫检查点疗法已在

2024-07-23 11:14:44 911

原创 CibersortX的替代者BayesPrism用单细胞数据去卷积得到普通转录组细胞类型比例

细胞去卷积模块依据来自单细胞RNA测序(scRNA-seq)的细胞类型特异性表达轮廓建立先验,联合估计肿瘤(或非肿瘤)样本的bulk RNA-seq表达数据中细胞类型组成及其特异性基因表达的后验分布。BayesPrism是一个综合工具,旨在利用贝叶斯统计方法从bulk RNA测序数据中精确解析肿瘤微环境的细胞组成,并同时考虑细胞特异性的基因表达模式,通过先进的算法模块实现对复杂细胞混合物的深入分析和理解。目的:去除线粒体、核糖体基因、性染色体基因、低表达基因,只选择编码蛋白的基因。

2024-07-20 11:40:08 906

原创 100个GEO基因表达芯片或转录组数据处理GSE26899(008)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。因为文件太大,在R内下载失败,可通过图片中的方法下载文件,并且把下载后的文件放在destdir = "./"即当前工作目录,GEOquery::getGEO便能跳过下载,直接使用本地的文件。

2024-07-03 13:55:00 905

原创 空间转录组学联合单细胞转录组学揭示卵巢癌生存相关受配体对

卵巢癌,作为女性生殖系统中的一种常见恶性肿瘤,其高级别浆液性卵巢癌(HGSC)亚型尤其致命。尽管多数患者对初次治疗反应良好,但超过75%的晚期HGSC患者会在治疗后复发,并且对化疗药物产生耐药性。然而,在这些患者中,有15%的人能够成为长期存活者(LTS),他们的生存期超过10年,这些长期存活者(LTS)的存在,为卵巢癌的治疗提供了宝贵的启示。

2024-06-27 09:02:39 451

原创 100个GEO基因表达芯片或转录组数据处理之GSE27342(007)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。因为文件太大,在R内下载失败,可通过图片中的方法下载文件,并且把下载后的文件放在当前工作目录,GEOquery::getGEO便能跳过下载,直接使用本地的文件。把表达矩阵中的探针名转换为基因名;

2024-06-26 09:10:39 692

原创 宏基因组|使用MEGAHIT组装

MEGAHIT 是一款超快速且内存高效的下一代测序(NGS)组装工具,专门针对宏基因组进行了优化,同时在处理常规单个基因组(小型或哺乳动物规模)以及单细胞组装任务时也有出色表现。还有一款软件SPAdes也常在宏基因组组装中见到,在介绍中好像比MEGAHIT组装效果好,但是需要消耗更多时间和资源,而且在使用中因为资源不足而报错…

2024-04-27 09:13:03 499

原创 宏基因组|使用CheckM2评估分箱质量

CheckM2使用机器学习快速评估基因组bin质量与CheckM1不同,CheckM2采用通用训练的机器学习模型,无论分类学谱系如何,均可用于预测基因组bin的完整性和污染情况。这使得它能够在训练集中纳入许多仅具有少数(甚至只有一个)高质量基因组代表的谱系,通过将其置于训练集中所有其他生物体的背景下进行分析。得益于这一机器学习框架,CheckM2对于具有缩减基因组或特殊生物学特性的生物体,如Nanoarchaeota或Patescibacteria,也具有极高的准确性。

2024-04-22 19:47:32 1636

原创 cell2location导入报错ImportError: cannot import name ‘parse_use_gpu_arg‘ from ‘scvi.model._utils‘

可以看到parse_use_gpu_arg函数在/Users/victor/miniforge3/envs/cell2loc_env/lib/python3.9/site-packages/scvi/model/_utils.py文件中是没有定义的,报错的原因是cell2location想要import scvi-tools包中的parse_use_gpu_arg函数,而parse_use_gpu_arg函数没有定义。

2024-03-18 08:39:46 737 2

原创 100个GEO基因表达芯片或转录组数据处理之GSE26899(008)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。因为文件太大,在R内下载失败,可通过图片中的方法下载文件,并且把下载后的文件放在destdir = "./"即当前工作目录,GEOquery::getGEO便能跳过下载,直接使用本地的文件。

2024-01-25 10:00:48 867

原创 100个GEO基因表达芯片或转录组数据处理之GSE27342(007)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。因为文件太大,在R内下载失败,可通过图片中的方法下载文件,并且把下载后的文件放在destdir = "./"即当前工作目录,GEOquery::getGEO便能跳过下载,直接使用本地的文件。

2024-01-19 11:10:08 951

原创 单细胞转录组学对代谢功能障碍相关脂肪变性肝病的类器官模型进行分析

最近接触比较多肝纤维化项目,包括空转、单细胞和普通的BULK转录组,本文是肝脏疾病类器官构建,所以结果是比较确定的,只是对比不同处理和培养哪种效果更好,适合了解纤维化进展和哪些分子和细胞参与,以及其机制;此外本文数据使用Python分析数据的图很好看,之后可以复现一下。代谢功能障碍相关脂肪变性肝病(MASLD)发病率不断上升,而且有效治疗方式很少。因此,测试新疗法的体外系统是必不可少的。虽然最近出现了人类肝脏类器官模型来评估脂肪变性肝病,但对其转化潜力的系统评估仍然缺失。

2024-01-15 09:52:53 983

原创 Python中使用execfile实现R中的source功能,避免重复加载包导入函数

在R中要加载多个包,进行全局的配置,定义全局变量,我们可以下一个config.R文件,在分析的代码开头source一下这个config.R文件即可避免每次都要加载包的冗余代码。using是之前定义的一个函数,作用是一次性加载多个R包,并且不打印包加载信息,可以参考**《其他脚本文件中只需一行代码就可以执行上述内容,从而避免了 多次设置,导入包函数。config.R中加载了R包,设置了函数的优先级,定义了全局变量(常量)多个脚本文件中只需一行代码就可以执行上述内容。

2024-01-13 15:40:45 555

原创 100个GEO基因表达芯片或转录组数据处理之GSE159676(002)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,在这里只保留diagnosis:ch1中HC和NASH的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)

2024-01-11 13:32:20 459

原创 100个GEO基因表达芯片或转录组数据处理之GSE126848(003)

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,在这里只保留disease:ch1中healthy和NASH的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)

2024-01-11 13:31:50 545

原创 gseaplot3修改一下clusterProfiler默认绘图函数

自定义gseaplot3函数增加了size参数调整线的粗细,也调整了margin四周边距,可以在下边gseaplot3函数的基础上继续调整,如果需要的话。绘图会出现下边的结果,导致四周显示不全,线的粗细也没办法调整,因为返回的是一个aplot包中的gglist对象,没太多研究。

2024-01-11 13:31:01 599

原创 使用mamba替换conda和anaconda配置环境安装软件

使用mamba替换miniconda和anaconda,原因是速度更快,无论是创建新环境还是激活环境conda、mamba、anaconda都是蟒蛇的意思…

2024-01-11 13:30:14 2537

原创 单细胞转录组实战00: 单细胞分析环境准备

10X官网提供人和小鼠的参考基因组索引文件,其他物种可以是用cellranger自行构建。最后4个包都要从github下载然后安装,可能会失败,可以再手动多尝试几次。如果安装monocle3报错,可以安装这两个ubuntu库文件。aspera可以从EBI快速下载fastq.gz文件。

2023-08-01 11:57:13 259

原创 MySQL 02:常用数据类型

ENUM从一个集合中选择一个字符串或者为 NULL,比如性别栏可以设置成仅允许["Male", "Female", "Prefer not to say"]CHAR可以设置长度,默认是 1,当实际输入<设定的位数时,在输入字符右边增加空格,以达到定长的目的。SET可以给定的集合中选择多个字符串,比如 SET("足球", "篮球", "羽毛起", "乒乓球")默认数值是有符号的,即有正有负,如果限定数据为非负,需要加上UNSIGNED关键字。<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>

2023-06-16 22:03:56 221

原创 mNGS 02:SnakeMake流程简介

流程代码在:https://jihulab.com/BioQuest/SnakeMake-mNGS 或https://github.com/BioQuestX/SnakeMake-mNGS。教程链接在:https://doc.bioquest.cn/mngs。<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>

2023-06-16 22:03:25 302

原创 六一双倍的快乐:ggplot2绘制双y轴图

双y轴图的目的,是想要在同一坐标系中画两组数据,但是他们值范围差很多,比如一组数据是1-10,另一组是10-100,那么可以对第一组数据做数据变化,比如第一组数据乘以 10,然后在对应的y轴上写上1-10,虽然第一组的数据已经变成了10-100。在ggplot2图形映射中(geom_line、geom_point),都把P列的范围放缩到x_min_max这个范围,但是在坐标轴上标出真实的值范围p_min_max。生信交流与合作请关注公众号@生信探索。函数把某一组数据变化到某一范围。

2023-06-01 09:41:02 234

原创 01.GATK肿瘤基因变异最佳实践SnakeMake流程:WorkFlow简介

~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>

2023-05-29 16:06:06 301

原创 GATK最佳实践之数据预处理SnakeMake流程

写的数据预处理snakemake流程其实包括在每个单独的分析中比如种系遗传变异和肿瘤变异流程中,这里单独拿出来做演示用,因为数据预处理是通用的,在call变异之前需要处理好数据。数据预处理过程包括,从fastq文件去接头、比对到基因组、去除重复、碱基质量校正,最后得到处理好的BAM或CRAM文件。输出的格式是CRAM,不是BAM,因为CRAM压缩效率更高,所以采用。<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>GATK说碱基的质量分数对call变异很重要,所以需要校正。

2023-05-27 09:07:18 529

原创 01.GATK人种系变异最佳实践SnakeMake流程:WorkFlow简介

学习的第一个GATK找变异流程,人的种系变异的短序列变异,包括SNP和INDEL。写了一个SnakeMake分析流程,从fastq文件到最后的vep注释后的VCF文件,关于VCF的介绍可以参考上一篇推文。<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>

2023-05-26 10:38:55 406

原创 Python实现将Excel表格按某列拆分为多个sheet

实际数据分析中遇到需求,把某个Excel表格按照某一列分为多个sheet,并且要求如果某个key对应的行数较少应该合并到一个sheet中。<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>这个sheet中,其他的key单独存在对应的sheet中。,删除特殊字符(因为不能作为sheetname)循环append sheet,最后close。如果某个key对应的行数少于50则合并在。读如数据,删除商品名称为na的行。第一次写出合并的药物sheet。从网上找随便了个数据做演示用。

2023-05-24 17:23:45 345

原创 Pandas数据框去重复(AB、BA类型)

从string-db下载蛋白质相互作用的信息,在处理时发现蛋白A与B互作被记录了两次比如下边的例子(即AB、BA)字符串的比较大小是根据字符串按位比较,两个字符串第一位字符的ascii码谁大,字符串就大,不再比较后面的,比如。<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>不能去除重复,因为他们在不同的列,因此可以想个方法,新建一列。这个时候再对temp的行去重复,就可以了。是对每一行循环,总是把大的放在前边。最后再删除temp列。

2023-05-24 09:11:43 146

原创 04.Python Dash网页开发:ubuntu服务器部署DASH网站(uWSGI+nginx)

我的简单理解,uWSGI去运行dash app并且与nginx通讯;nginx处理浏览器传来的请求并把需求给uWSGI。需要在腾讯云服务器开一个新端口1314,如果用80或433应该就不需要新开端口了,因为一般都会默认开通。腾讯云服务器绑定域名需要备案,比较麻烦,所以暂时还是不搞吧。<~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索>修改Nginx配置,把user改为启动用户即root。现在就可以在浏览器中访问到DASH网站了。Dash官网只有付费的部署方式❌。app还是上个推文的。

2023-05-23 09:06:10 361

原创 基因序列变异信息VCF (Variant Call Format)

Phred标准下的质量值,表示该变异位点的可靠性,可以理解为所call出来的变异位点的质量值。因此,如果想把错误率从控制在90%以上,P的阈值就是1/10,那lg(1/10)=-1,Q=(-10)*(-1)=10。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置;ALT=C:所有样本中基因组上13649处可能发生的突变为C,有的样本突变,有的样本没有突变。

2023-05-23 09:05:11 522

原创 山重水复疑无路,最快下降问梯度

学习率如果过小,损失函数的变化速度很慢,会大大增加网络的收敛复杂度,并且很容易被困在局部最小值或者鞍点。其实是预测值减去真实值的平方除以2倍的样本数m(即0.5*MSE),多乘以0.5可以消除掉平方求导后的系数2。:有大小和方向,用导数求得大小,目标函数变化最快的方向的反方向作为移动的方向。,但是在机器学习和深度学习中更通用的方法是使用梯度下降方法找到最优解。:数学上的迭代,第一步运算的结果带入到第二步的函数中,以此类推。移动的方向从减号表示出来,减号表示梯度的反方向。此时的损失函数非常接近于0。

2023-05-16 17:56:50 264

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除