![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
经验知识分享
文章平均质量分 90
还是要前进啊
一个喜欢生信的人
展开
-
资料总结分享:lasso回归,岭回归,svm,随机森林,
Lasso回归是一种线性回归方法,它可以用于特征选择和模型正则化。在Lasso回归中,除了最小化数据拟合误差外,还会加上一个惩罚项,这个惩罚项是特征系数的绝对值之和乘以一个参数。这个参数可以控制模型的复杂度,促使模型选择更少的特征,从而降低过拟合的风险。Lasso回归是一种常用的机器学习方法,特别适用于具有大量特征的数据集。Lasso回归(Least Absolute Shrinkage and Selection Operator regression)是一种用于特征选择和稀疏建模的线性回归方法。原创 2024-05-16 20:49:19 · 1104 阅读 · 2 评论 -
机器学习概念:一些基本概念
损失函数(Loss Function)用于衡量模型预测结果与真实标签之间的差异。训练过程的目标是通过最小化损失函数来调整模型的参数,使其能够产生更准确的预测结果。原创 2024-05-15 01:45:00 · 1344 阅读 · 1 评论 -
机器学习概念:几种常见的距离参数概念和应用
假设有两个点 P 和 Q,在一个多维空间中,P 的坐标为 (p1, p2, ..., pn) 并且 Q 的坐标为 (q1, q2, ..., qn),切比雪夫距离定义为这两个点对应坐标差的绝对值的最大值。然而,它也有局限性,例如在考虑地球表面上的实际距离时,应使用更复杂的距离度量,如大圆距离(Haversine公式),而不是简单的直线距离。其中,\(p_i\) 和 \(q_i\) 是点 P 和 Q 在第 \(i\) 维上的坐标,而 \(max\) 表示取这些差的绝对值中的最大者。原创 2024-05-13 18:51:01 · 924 阅读 · 0 评论 -
机器学习概念:决策树的一些概念
基于已知值的分裂:在决策树的分裂过程中,可以将具有缺失值的样本分配到多个子节点中。对于一个具有缺失特征值的样本,可以同时在每个可能的子节点中进行分裂,使得每个子节点都考虑到缺失值。这种方法可以在保留样本的同时利用其他特征的信息。缺失值作为单独的分支:为了处理缺失值,可以将具有缺失特征值的样本分配到一个单独的子节点中。这样,在分裂过程中可以为缺失值创建一个单独的分支。这种方法可以有效地处理缺失值,但可能会导致树的增长并引入更多的不确定性。原创 2024-05-13 18:50:36 · 1010 阅读 · 1 评论 -
资料总结分享:瀑布图,GESA,生存曲线
纵轴为对应的Running ES, 在折线图中有个峰值,该峰值就是这个基因集的Enrichemnt score,峰值之前的基因就是该基因集下的核心基因。对于Enrichment score为正数的基因集而言,其核心基因是峰值之前的基因,对于Enrichment score为负数的基因集而言,其核心基因是峰值之后的基因。GSEA分析的是一个基因集下的所有基因是富集在这个排序列表的顶部还是底部,如果在顶部富集,可以说,从总体上看,该基因集是上调趋势,反之,如果在底部富集,则是下调趋势。原创 2024-05-12 22:53:36 · 836 阅读 · 0 评论 -
资料总结分享:VCF文件
VCF文件指的是Variant Call Format,即变异调用格式。它是一种常用的文本文件格式,用于描述基因组中的变异信息,如单核苷酸多态性(SNP)、插入缺失(Indels)等。原创 2024-05-08 00:45:00 · 3207 阅读 · 0 评论 -
资料总结分享:SAM,bam,bed文件格式
表示read比对到RNAME这条序列的最左边的位置,如果该read能够完全比对到这条序列(CIGAR string为M)则这个位置是read的第一个碱基比对的位置,如果该read的反向互补序列比对到这条序列,则这个位置是read的反向互补序列的第一个碱基比对的位置,所以无论该read是正向比对到该序列,或是其反向互补序列比对到该序列,比对结果均是最左端的比对位置。SAM文件中的每一行包含了比对的序列ID、比对的标志、参考序列的名称、序列的起始位置、比对得分、序列的序列等信息。原创 2024-05-07 19:55:49 · 1230 阅读 · 0 评论 -
资料总结分享:数据库:1.设计概念
根据一个单位的信息需求、处理需求、数据库的支撑环境和数据库的设计特点,按照规范化设计的方法,考虑数据 库及其应用系统开发全过程,设计数据模式以及典型的应用程序,就是所谓的数据库设计。数据库设计通常包括需求分析, 概念结构设计,逻辑结构设计,物理结构设计,数据库实施,数据库运行和维护六个阶段。数据库设计(Database Design)是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库模式,建立数据库及其应用系统,使之能有效地存储数据,满足各种用户的应用需求。原创 2024-04-25 20:32:05 · 1121 阅读 · 0 评论 -
资料总结分享:数据库篇:数据库设计范式
关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、第四范式(4NF)、第五范式(5NF)和第六范式(6NF)。满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多要求的称为第二范式(2NF),其余范式以此类推。一般说来,数据库只需满足第三范式(3NF)就行了。在创建一个数据库的过程中,范化是将其转化为一些表的过程,这种方法可以使从数据库得到的结果更加明确。这样可能使数据库产生重复数据,从而导致创建多余的表。原创 2024-04-26 20:31:41 · 943 阅读 · 0 评论 -
资料总结分享:数据库篇:设计步骤
数据库试运行合格后,数据库开发工作基本完成,即可投入正式运行了。但由于应用环境不断变化,数据库运行过程中物理存储也不断变化,对数据库设计进行评价、调整与修改等维护工作是一个长期的任务。在数据库运行阶段,对数据库经常性的维护工作主要是由数据库管理员 DBA 完成的。数据库的维护工作包括4个方面。原创 2024-04-26 19:42:01 · 1813 阅读 · 0 评论 -
资料总结分享:临床重要数据库
通过这一图谱,可以深入了解人类遗传多样性和变异的模式、频率以及与疾病相关的遗传变异。数据库结构: dbSNP数据库采用分层的数据库结构,包括核心数据库(core database)、外显子数据库(exon database)、综合数据库(integrated database)等多个子数据库,每个子数据库都针对特定的数据类型或应用场景进行了优化和整合。该浏览器提供了丰富的基因组信息,包括基因组序列、基因结构、转录本、调控元件、基因组变异等,支持用户在基因组水平上进行高效的数据查询、可视化和分析。原创 2024-04-22 19:58:38 · 873 阅读 · 0 评论 -
资料总结分享:癌症生存率和生存期
无法全面评估治疗效果: LCR只反映了局部病变的控制情况,无法全面评估治疗对患者总体生存或生活质量的影响,因此需要结合其他生存期指标如总生存期(Overall Survival,OS)或生活质量评估来进行综合评估。早期指标: 与总生存期(Overall Survival,OS)相比,TTP可以更早地评估治疗的效果,因为它关注的是治疗后疾病进展的时间,而不是患者的生存时间。治疗前的生存率指的是患者在接受任何治疗之前的预期生存率,而治疗后的生存率是指患者在接受治疗后的预期生存率。原创 2024-04-20 11:37:51 · 1131 阅读 · 0 评论 -
资料总结分享:《全外显子测序数据的流程和原理》
所以这里大家需要记住一个重点,PCR扩增原本的目的是为了增大微弱DNA序列片段的密度,但由于整个反应都在一个试管中进行,因此其他一些密度并不低的DNA片段也会被同步放大,那么这时在取样去上机测序的时候,这些DNA片段就很可能会被重复取到相同的几条去进行测序,但是由同一个模板分子扩增出来的重复子文库只对应单一模板,在分析过程中应将重复片段予以去除。因此,我们需要先把这一大堆的短序列捋顺,一个个去跟该物种的参考基因组比较,找到每一条read在参考基因组上的位置,然后按顺序排列好,这个过程就称为测序数据的比对。原创 2024-04-17 22:00:00 · 1238 阅读 · 0 评论 -
收集资料分享:《肿瘤TMB,SNP,CNV,INDEL,MSI》
TMB是指肿瘤基因组内存在的体细胞突变位点数量,可以间接反映肿瘤产生新生抗原的能力。由于早期研究多基于WES检测,因此TMB通常是指单位基因组外显子编码区域(外显子组,exome)的突变数量(mutations, muts),单位为muts/exome。虽然WES是检测TMB的金标准,但WES时间成本和分析成本较高。经过多项大样本研究验证后,TMB检测从WES扩展到了更切合临床实际的靶向二代测序(next-generation sequencing panel, NGS panel)。原创 2024-04-16 19:45:00 · 1121 阅读 · 0 评论