主讲人:孟浩巍
北京大学生物信息学博士
研究方向:RNA表观转录组;高通量测序方法
内容大纲:
- 生物信息学的定义
- 生物信息学是一个动态的定义(2006~2010 高通量测序技术的蓬勃发展;2016~ 更新的测序及技术推动的学科发展)
- 生物信息学的学科内涵:以信息技术及其相关的手段对生物问题进行探索研究的学科。
- 生物信息学常见的分类及目前发展现状
- 狭义的生物信息学主要包括(组学):开发、改进新的算法及工具(比对算法);开发改进新的数据库(NCBI);深度分析现有的公共数据(TGGA analysis);深度分析数据并结合生物学实验;高通量测序及分析相关的内容……
- 广义的生物信息学还包括:系统生物学;计算生物学……
- 当前生物信息学科研热点:针对热点的问题提出解决方案(CRISPR sgRNA设计及算法优化;Sevenbridge图像运算流程);针对重要的问题,提出新的观点,发现新规律(利用测序手段研究进化问题,提出新猜想;开发新的测序方法,测到修饰)。
- 当前生物信息学应用热点,针对市场,能提供优质权威的服务:科研服务(样品测序;简单分析;定制分析);科研服务(产前无创筛查,如贝瑞和康;癌症靶向药物筛选,如肺癌EGFR突变的靶向药;癌症风险预测,如安吉丽娜朱莉brca-1;SNP及相关信息分析,如WeGene,23andme);咨询投资服务。
- 生物信息学,尤其是高通量相关的生物信息学,正处于方兴未艾,如火如荼的阶段。
- 生物信息学需要的编程技能与编程语言选择
- 开发、改进新的算法及工具;(良好的算法功底;优秀的代码实现能力,包括写工具,搭服务器,做前段网页,后端管理……)
- 分析、挖掘大数据背后的规律;(良好的算法应用能力;良好的统计学功底;较为优秀的代码解决问题能力。)
- 处理大量数据:Python
- 简易处理问题:Linux Shell script
- 后期统计学分析:R
- 生物信息学需要的操作系统环境
- 生物信息学需要学的数学和算法知识
- 运算端----服务器(根据运算量来判断);操作系统(Linux);常用配置(32核心CPU, 128GB内存,储存5T以上)
- 桌面端----一台性能不错的台式机或笔记本;常用配置(4核i5,8GB内存,存储200GB以上);要拥有1块1T以上的移动硬盘用来备份;推荐MaxBook Pro或者笔记本来安装linux系统。
- 一个简明的入门学习路线图
- 分子生物学(MOOC课;现代分子生物学第4版,朱玉贤;Molecular Biology of the Gene 7th)
- 细胞生物学(MOOC课,Molecular Biology of the Cell 6th)
- 生物信息学基础课程(MOOC课,生物信息学8年制临床医学 第2版)
- 生物信息学初学者的平台搭建
- anaconda(建议Python2.7)
- BIOCONDA
- NGS具体实例,从测序数据Fastq到分析基因差异表达的完整流程(包括但不限于:建库测序原理,FastQC, Tophat,cufflinks,cuffdiff的用法)
- 每一条序列,一共有4行
- 第一行是测试仪的信息
- 第二行是具体序列,A T C G; N的话,表示测序的时候效果不是很好,我不清楚它到底是什么意思。
- 第三行是+号开头的,然后再加一些注释信息
- 第四行的长度和第二行是一样的,每一个位置的字符代表一个测序质量,测序质量的换算,在知乎专栏中可以查看。
- fastqc -q(不在页面上输出很多内容) -o(指定输出位置)
- FastQC Report : Per base sequence quality ; Per base sequence content; Adapter content(短序列的含量);Sequence Duplication Levels(衡量建库的质量);
- fastx_trimmer:截取序列
- cutadapt
- bowtie2
- tophat2
- hg19_index
- BAM文件分为头部和尾部
- 基因表达量的单位:FPKM Fragments Per Kilobase Of Exon Per Million Fragments Mapped (该基因上的Reads数*10^9/(基因的外显子长度*测序数据量))
- cuffdiff