自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(122)
  • 收藏
  • 关注

原创 生物信息学 GO、KEGG

概述了当前生物信息学领域中几个重要的概念和工具,介绍基因本体论(Gene Ontology, GO)、分子通路知识库KEGG(Kyoto Encyclopedia of Genes and Genomes)以及分子通路鉴定和GO注释的过程。首先从北京大学生物信息学团队的研究工作讲起,解释了基因本体论的框架,它是一套用于表示基因产品属性的控制词汇表。然深入探讨了KEGG数据库如何系统地整合了生物化学通路和分子交互网络的信息。

2024-03-25 23:55:51 1716

原创 生物信息—数据库

概述了几种主要的生物信息学数据库,包括核酸序列、蛋白质序列及其结构和专用生物路径数据库。文章从一级核酸数据库开始,详细介绍了GenBank、Ensemble和JCVI等数据库,这些数据库提供了广泛的原核和真核生物的遗传信息。然后是蛋白质数据库,从UniProtKB的基本序列信息到PDB的三维结构信息,以及如Pfam、Cath和SCOP2等二级蛋白质数据库的深入分析。最后,探讨了KEGG和OMIM等专用数据库,提供了详细的生物化学路径和遗传疾病信息。

2024-03-25 23:17:13 1353

原创 【Human Genetics】Link analysis、GWAS

这部分笔记介绍了人类遗传学的基础,并探讨了疾病基因狩猎的策略,包括评估常见和罕见变异、利用连锁分析识别遗传位点,以及通过全基因组关联研究(GWAS)测试基因与疾病之间的关联。重点强调了在GWAS中进行多重测试的重要性,并以克罗恩病为例说明了这些方法如何在具体疾病中应用。人类遗传学。

2024-02-06 12:29:07 917

原创 【Single Cell Genomics】Part3 Deep generative models for single-cell transcriptomics

然而,对于复杂的模型,这个分布可能是无法解析计算的,因为它涉及到高维积分,这在数学上称为不可解析或不可逾越。一旦得到了准确的信号,就可以用来做很多不同的生物学分析,比如找出哪些基因的活跃程度在不同的条件下会变化。这个简单的分布被选为容易计算的分布,通常是因子分解的(意味着它由更小的分布的乘积组成),并且有足够的灵活性来近似真实的后验分布。scANVI旨在提供一个统一的框架来处理单细胞数据的整合和注释,可能是通过学习数据的生成模型来实现的,并且可以在没有额外信息的情况下估计差异表达。跟第二部分比较类似。

2024-02-01 13:48:32 893

原创 【Single Cell Genomics】Part2 Deep representation learning (form theislab)

来自Manolis Kellis教授(MIT计算生物学主任)的课Slides:本节课是三个部分,这篇是第二部分。本部分是邀请Fabian Theis来介绍单细胞组学领域相关的工作。作为这个领域的开拓者之一,其主要的工作的介绍基本涵盖了这方面的分析流程。

2024-01-25 17:26:59 1020

原创 【Single Cell Genomics】Part1 单细胞基因组学

来自Manolis Kellis教授(MIT计算生物学主任)的课Slides:本节课是三个部分,这篇是第一部分。本节课讲的是单细胞基因组学方面的分析,第一部分是一些基础知识的介绍,第二、第三部分是请了领域里的大佬来介绍相关的工作,比如Fabian Theis。首先回顾传统基因组学方法,以及为何scRNA-seq技术对于理解生物学的微观复杂性十分重要。然后讨论单细胞技术的快速进展,以及如何扩展这些技术以处理更大规模的数据集。扩展介绍了scATAC-seq和多组学数据的整合。

2024-01-25 17:23:09 1314

原创 【Gene Expression Prediction】Part4 Predicting splicing from primary sequence

来自Manolis Kellis教授(MIT计算生物学主任)的课Slides:本节课分为四个部分,本篇笔记是第四部分。主要介绍了SpliceAI这个模型如何从基本序列预测RNA的剪接。首先简要介绍RNA剪接的基本概念,然后详细讲解如何运用深度学习技术解码剪接过程。介绍了模型的性能,如何解释它们的预测结果,以及它们在实际应用中如何帮助我们更好地理解遗传疾病和开发新的治疗策略。

2024-01-24 14:00:00 1789

原创 【Gene Expression Prediction】Part3 Deep Learning in Gene Expression Analysis

来自Manolis Kellis教授(MIT计算生物学主任)的课Slides:本节课分为四个部分,本篇笔记是第三部分。主要是Xie Lab的一个讲座,讨论其组里的一些工作。在基因表达分析中应用深度学习。从介绍D-GEX开始,用于从关键基因预测基因表达的模型。接下来,将深度生成模型在基因组学中的应用,包括流形假设、自编码器,以及变分自编码器。此外,还介绍SAILER,这是一种基于单细胞ATAC-seq数据的模型,以及VAE。最后探索了多模态深度学习在单细胞多组学中的应用。

2024-01-23 14:21:35 1055

原创 【Gene Expression Prediction】Part2 Enchancer discovery

来自Manolis Kellis教授(MIT计算生物学主任)的课Slides:本节课分为四个部分,本篇笔记是第二部分。本节主要是一个讲座STARR-seq,探讨发现增强子的方法。如何利用弱监督学习检测增强子。评估了模型性能,以及它们在基因表达分析中的应用潜力。

2024-01-23 14:10:29 1012

原创 基因表达分析聚类&分析

两种分类方法在分类问题中,通常有两种主要的方法:生成方法(Generative)和判别方法(Discriminative)。生成方法(Generative)生成方法试图学习数据的联合概率分布P(X, Y),然后使用贝叶斯定理来推导出条件概率分布P(Y|X)。生成模型能够产生新的数据样本,这是它们名字的由来。代表性的算法有贝叶斯分类器(例如朴素贝叶斯)和隐藏马尔可夫模型(HMM)等。生成模型将分类问题描述为概率问题,它在不同类别中建模特征分布,并使用概率计算进行决策。

2024-01-22 12:00:00 1371

原创 【Gene Expression Prediction】Part1 基因表达数据的获取与分析

来自Manolis Kellis教授(MIT计算生物学主任)的课Slides:本节课分为四个部分,本篇笔记是第一部分。本节主要是介绍如何获得和分析基因表达数据。主要是为了后面的三个讲座铺垫。首先,探讨不同的方法和技术来获取基因表达数据。之后学习如何分析这些数据,包括上采样方法来解决数据不平衡问题,以及压缩感知技术来处理高维数据。最后,我们会讨论如何预测RNA剪接。

2024-01-22 12:00:00 1004

原创 【百度PARL】强化学习笔记

百度飞桨科科老师强化学习课程笔记

2023-12-18 23:26:21 620

原创 【Regulatory Genomics】Part3 GENOMICS AT NVIDIA、ATACWORKS

来自Manolis Kellis教授(MIT计算生物学主任)的课本节课分为三个部分,本篇笔记是第三部分。本节主要是介绍了英伟达在基因组学方面的一些工作,主要介绍了ATACWORKS这个模型。用于在有噪声的、有数据质量问题、分辨率低的数据,还原成清晰的测序数据。

2023-12-11 18:46:14 103

原创 Transformer源码(带注释)

在看Transformer源码前,必须要先从李宏毅/李沐那里把注意力机制/自注意力/多头注意力的原理和Transformer的架构原理先搞明白,才可以看得懂代码。我是先把多头自注意力机制那块公式/代码手推过一遍之后,再结合up主的讲解补充了mask和position encoding,就能搞懂transformer了。如果有学不懂的欢迎评论/私信加qq交流,也当是自己巩固知识。在up主的注释下增加了一些自己的注释。

2023-12-11 10:17:46 681

原创 【Hung-Yi Lee】强化学习笔记

李宏毅强化学习笔记

2023-12-07 17:00:55 168

原创 【Regulatory Genomics】Part2 BPNet、DeepLIFT

来自Manolis Kellis教授(MIT计算生物学主任)的课本节课分为三个部分,本篇笔记是第二部分。本节主要是请了一个阿三哥来介绍来一下他们的一些将神经网络应用在调控基因组学上的工作,模型的原理、意义和拓展。模型叫BPNet、DeepLIFT以及TF-MoDISCO。并且在实验上验证了他。整体思路递进的还不错,但是讲的有点快和凌乱,我感觉不如下一部分英伟达的讲座。

2023-11-15 12:58:03 254

原创 【Regulatory Genomics】Part1基因调控的生物学基础、motifs与测序技术

来自Manolis Kellis教授(MIT计算生物学主任)的课本节课分为三个部分,本篇笔记是第一部分。本节探讨基因调控的生物学基础、DNA motifs以及用于探测基因调控的关键技术(CHIP-seq、DNase-seq以及ATAC-seq)。主要是为后面的内容打下基础,为深度学习所用的数据进行说明。

2023-11-15 12:46:43 140

原创 1024随笔

从C语言、Python爬虫,到数学建模、机器学习,再到入坑生物信息,每一个专栏的开始都是出于兴趣,而每一个专栏的完结都是艰难的,在新鲜感褪去之后便是日复一日的学习,花出额外的时间去整理笔记,不过一直都坚持下来了,也还算是帮助了不少人,希望继续保持吧。大二开始入门编程,刚开始只是写markdown做笔记来巩固自己的学习,发现可以顺便传到网上分享帮助别人,便开始对博客的内容有了更高的要求。然后就断断续续一直写吧,在忙碌枯燥的内卷生活中留下点什么总归是好的。

2023-10-23 11:16:02 78

原创 【RNA folding】RNA折叠算法与生物物理约束

来自Manolis Kellis教授(MIT计算生物学主任)的课。本节课分为三个部分,本篇笔记是第三部分RNA folding。本课程探讨RNA的折叠过程及其预测方法。先了解了RNA的表示和Nussinov算法的应用。然后通过动态规划预测复杂的RNA叠加与折叠。最后介绍了随机上下文无关文法,为RNA结构提供了广泛的描述框架。

2023-10-22 17:34:40 1680

原创 【RNA structures】RNA-seq 分析: RNA转录的重构和前沿测序技术

来自Manolis Kellis教授(MIT计算生物学主任)的课。本节课分为三个部分,本篇笔记是第二部分RNA structures。本部分深入研究了RNA转录的重构和测序技术。从RNA转录重构的基础开始,探讨了现代测序技术的应用。

2023-10-21 21:21:42 2565

原创 【RNA world】RNA的多功能性与早期生命进化

来自Manolis Kellis教授(MIT计算生物学主任)的课本节课分为三个部分,本篇笔记是第一部分RNA world。主要探讨了RNA分子的功能多样性和RNA在生物学中的核心功能。从RNA在生物学中的中心法则的核心功能开始,深入探讨了rRNA、SnRNA等RNA的不同功能。此外,还介绍了RNA世界假说、RNA的复制、催化作用,以及RNA如何感知环境变化并作出相应的反应。

2023-10-21 21:04:20 416

原创 【Debug】linux服务器破解五秒盾docker报错“[Errno 24] Too many open files: ‘/app/chromedriver‘“

本来挂在两台Linux服务器上一直爬的好好的,突然不行了,以为是需要国外ip倒腾了一整天,最后搞定了国外ip还是没解决这个问题。相关,这意味着可能是你在代码中多次启动了chromedriver进程,而没有正确地关闭它们,或者某些其他进程导致文件描述符数量增加。:如果你的应用程序需要频繁地打开和关闭资源(如数据库连接、文件、web驱动器等),考虑使用连接池或其他资源管理技术来有效地重用资源。在获取某一外国文献网站的内容的时候,根据如下博客,使用了docker成功爬取。但这只是临时的,重新登录后会被重置。

2023-10-19 12:14:10 287

原创 【复盘与分享】第十一届泰迪杯B题:产品订单的数据分析与需求预测

对我们的工作进行一个总结,对很多准备相关比赛的同学还是挺有帮助的,所以还是复盘一下需要论文的pdf版本的,可以在评论区给出邮箱。源代码的话有点乱,我自己现在都不一定理的清了,有需要的话再说。

2023-07-23 19:23:34 4388 45

原创 HHU云计算期末复习(下)Hadoop、虚拟化技术、openstack

传统的数据中心vs虚拟数据中心传统的数据中心采用了多种技术业务之间孤立网络结构复杂虚拟数据中心高速扁平虚拟化虚拟化技术简介随着云计算的发展,传统的数据中心逐渐过渡到虚拟化数据中心,即采用虚拟化技术将原来数据中心的物理资源进行抽象整合。实现资源的动态分配和调度,提高现有资源的利用率和服务可靠性提供自动化的服务开通能力,降低运维成本具有有效的安全机制和可靠性机制,满足公众客户和企业客户的安全需求方便系统升级、迁移和改造。

2023-06-30 19:33:42 917

原创 HHU商务数据挖掘期末考点复习

信息与知识信息通过一定的技术和方法,对数据进行集成、分析,挖掘其潜在的规律和内涵,得到的结果是信息信息是具有商务意义的数据知识当信息用于商务决策,并基于决策开展相应的商务活动时,信息就上升为知识信息转化为知识的过程不仅需要信息,而且需要结合决策者的经验和能力,用以解决实际的问题商务智能的系统构成(六个主要组成部分)数据源企业内部的操作型系统,即支持各业务部分日常运营的信息系统企业的外部,如人口统计信息、竞争对手信息等数据仓库。

2023-06-27 11:27:21 1689 3

原创 HHU云计算期末复习(上)Google、Amazon AWS、Azure

河海大学商学院的云计算课程期末复习笔记上半部分只针对考点所以不太全面,留给未来需要的学弟学妹本文主要讲了Google云计算、Amazon AWS、微软Azure这三套云计算体系的重要知识点。

2023-06-26 00:03:05 2027

原创 表示学习(Representation Learning) Part2--Auto-Encoders、VAEs、GANs

来自Manolis Kellis教授(MIT计算生物学主任)的课《人工智能与机器学习》主要内容是表示学习(Representation Learning)的part2----压缩(自动编码器)、捕捉参数分布(VAE)、使用第二个网络(GAN)三种方式来进行Representation Learning

2023-06-14 18:48:51 927

原创 表示学习(Representation Learning) Part1--Pretext Text

来自Manolis Kellis教授(MIT计算生物学主任)的课《人工智能与机器学习》。主要内容是表示学习(Representation Learning)的part1----Pretext Text(代理任务/前置任务/辅助任务等等),可以理解为是一种为达到特定训练任务而设计的间接任务。。包括这几个部分:推断结构、转换预测、重构、利用时间、多模态、实例分类(对应英文见目录)

2023-06-09 00:21:23 603

原创 NLP基础知识(语法语义、LDA、N-gram、词嵌入)

来自Manolis Kellis教授(MIT计算生物学主任)的课《人工智能与机器学习》。本文是NLP的铺垫,很多基础的知识,讲的主要是传统的一些方法,对于深入现代的RNN、LSTM、BERT、Transformer、GPT等等模型可以说是必备的。主要讲了文本的语法和语义关系、不确定性(医学文本)、LDA主题模型、N-gram models、词嵌入是啥(embedding)。解决了我以前只学模型的一些困惑。最后粗略的过了一下大语言模型(LLMs)并给出了几个好的视频链接(台大李宏毅)。

2023-05-29 23:45:01 959

原创 【生物信息】调控基因组学 (Regulatory Genomics) 和Deep CNN

来自Manolis Kellis教授(MIT计算生物学主任)的课《人工智能与机器学习》。主要内容就是调控基因组学和深度卷积网络的结合

2023-05-24 19:57:36 880

原创 生成模型(自编码器、VAE、GAN)

来自Manolis Kellis教授(MIT计算生物学主任)的课《人工智能与机器学习》,中间结合李沐的一个精读视频(GAN)作为补充。主要内容就是生成模型,包括自编码器(Autoencoder)、变分自编码器(VAE)和生成对抗网络(GAN)。由于这部分在我学习的课程中不到15分钟,所以内容很少,下面贴出油管链接(这个有一个半小时)

2023-05-24 19:54:12 2391

原创 图神经网络GNN GCN AlphaFold2 虚拟药物筛选和新药设计

来自Manolis Kellis教授的课《人工智能与机器学习》,中间结合李沐老师的两个精读视频(GNN和AlphaFold2)作为补充。本节课主要介绍了几何深度学习、图神经网络主要内容有图神经网络、GNN、GCN、对称性、等变性、信息传递、蛋白质空间结构预测(AlphaFold2)、药物设计(虚拟药物筛选和新药设计)。

2023-05-23 23:16:35 2063

原创 网络分析和机器学习

来自Manolis Kellis教授(MIT计算生物学主任)的课《人工智能与机器学习》。本节课主要介绍了network和graph的知识。主要内容有网络和图的基础知识(网络类型、相关算法)、网络性质(motifs性质、中心性等)、特征向量、SVD奇异值分解、PCA、Sparse PCA、t-SNE等。我觉得讲的很好!短短一个半小时讲的比我大一学的线性代数有意思多了,很有启发,尽管我的线性代数很烂但不妨碍边学边查最后大概都能听懂。

2023-05-21 15:57:23 1048

原创 【生物信息】用隐马尔可夫模型对生物序列进行建模

来自Manolis Kellis教授的课教了隐马尔可夫在基因组学中的一些应用重点介绍了隐含状态序列解码问题至于序列概率估计和求解参数问题没有细讲。

2023-04-19 12:55:46 1100 1

原创 分子生物学 第五章 DNA损伤修复和突变

突变:碱基对配对发生变化。损伤:比如碱基,甲基化。

2023-04-13 19:44:10 1048

原创 分子生物学 第四章 DNA的生物合成

αβγδξ。

2023-04-13 19:40:17 2378

原创 分子生物学 第三章 基因、基因组及基因组学

Spilianakis等人发现位于10号染色体上的Y-干扰素基因的辰动子区,与11号染色体上的TH2细胞因子的调控区,在细胞核内相互邻近而可能受到共同调节。定义:染色体上存在多个拷贝的基因,主要存在于真核生物基因组中,这些基因往往是与生命活动最基本、最重要的功能相关的基因,如组蛋白基因、rRNA基因、tRNA基因等。这种编码序列不连续的间断基因称为断裂基因/不连续基因。不同基因的核苷酸序列有时是可以共用的,即这些基因的核苷酸序列是彼此重叠的,这样的基因称为重叠基因或嵌套基因 (nestedgenes)

2023-04-13 19:36:51 2215

原创 分子生物学 第二章 遗传物质

断开的那条链就会围绕完整的那条进行旋转,就会释放掉那些张力,就会回复到双螺旋结构,相对来讲就是比较刚性的环状结构。左手超螺旋是正超螺旋,因为正常的DNA是右手螺旋,超螺旋是在其上叠加了左螺旋,所以左手超螺旋可以理解为正的。负超螺旋往往更重要,因为其可以跟有loop的DNA互相转化,因为有loop结构的很有用。H型DNA,通常我们不知道的原因都会归为基因调控,因为基因调控是我们最搞不清楚的事。三种比较重要的,这三种在天然的生物体中都有存在,且有不同的意义。也就是说,可以有不同来源的DNA,形成双螺旋。

2023-04-13 19:31:34 937

原创 分子生物学 第一章 概论

起源于遗传学genetics和生物化学biochemistry,然后形成了分子生物学molecular biology分子生物学发展两个阶段,DNA双螺旋的发展,从奠基阶段到了发展阶段奠基阶段:传递遗传学发展阶段分子遗传学研究内容:基因的结构和功能。

2023-04-13 19:29:34 653

原创 第十五章 栅格数据重分类、栅格计算器、插值分析

在类似计算器的界面中,使用 Python 语法构建和执行单个地图代数表达式。栅格计算器可以是数学运算符(加、除等)和逻辑运算符(大于、等于等),可以是一个图层也可以两个图层,两个以上的图层,要注意坐标系相同,CELLSIZE大小(分辦率)要相同。空间插值常用于将离散的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较它包括了空间内插和外推两种算法。空间内插算法是一种通过已知点的数据推求同一区域其它未知点数据的计算方法空间外推算法则是通过已知区域的数据,推求其它区域数据的方法。

2023-02-10 17:54:48 4486

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除