前言
资料下载地址:Index of /20230605_ZTUzYWNhMG/http://ftp.genek.cn:8888/20230605_ZTUzYWNhMG/
访问密码: K3qYfCzz
二代测序:边合成边测序SBS
PacBio测序原理:给DNA链加上adapter最后变为环状DNA片段,芯片有很多小孔每个要测的片段都能掉进一个小孔,孔底有DNA聚合酶。将DNA片段捕捉 ,另外一条链在合适条件下开始合成和illumina相同每合成一个碱基就会发光,它不需要桥式PCR,但是如果酶活下降也有弊端。
一个转录本RNA单链先逆转为双链cDNA。测序错误率为10%-15%单条reads,测序次数增加,假设待测2-3k总测量可达20-30k可测十次左右 ,对reads进行校正,准确性到达99.9%以上CCS测序技术。
2M200万nanopore测序长度可达k是千碱基单位
无参分析
Iso-Seq基本分析(全长转录组分析)
是什么:
Iso-Seq(Full-Length Isoform Sequencing)是一种用于分析和研究转录本的高通量测序技术。该技术旨在捕获和分析转录本的完整序列,包括转录本的全长和全序列信息。Iso-Seq 技术可以克服传统测序方法中的短读长限制,提供了更准确和更全面的转录本信息。
Iso-Seq 技术的主要步骤包括:
1. **cDNA合成**:从RNA样本中提取RNA,通过反转录过程合成cDNA,保留了转录本的完整序列信息。
2. **长读长测序**:利用长读长测序技术,如PacBio Single Molecule Real-Time (SMRT) 测序技术或Oxford Nanopore 测序技术,对cDNA进行测序。这些技术能够产生较长的读长,能够覆盖转录本的整个长度。
3. **数据分析**:对测序得到的长读长数据进行分析,包括数据的过滤、错误校正、拼接和注释等步骤,以获得转录本的完整序列。
Iso-Seq 技术的应用包括但不限于以下几个方面:
- **转录本组装**:将长读长测序数据用于转录本组装,可以得到更准确和更完整的转录本信息,特别是对于复杂的基因组。
- **转录本注释**:利用长读长测序数据对基因组中的转录本进行注释,发现新的基因和变体,研究基因的结构和功能。
- **转录本差异表达分析**:基于长读长测序数据,进行转录本的定量和差异表达分析,揭示基因在不同生物学条件下的表达模式和调控机制。
总的来说,Iso-Seq 技术为转录组学研究提供了一种全新的视角,能够更全面地理解和研究生物体内的基因表达调控网络。
(1)公司给的原始read是Subrerad,一条一条的。需要将这种read转为CCS read转换为一致性的read
上图是下载的三代测序数据每一条(m54193_190213_040038/5571256/241891_242197 )都是一个subread, 可以发现有很多subread前面的部分都一样(m54193_190213_040038/5571256),继续往下翻阅文件发现出现了不同(m54193_190213_040038/5636427)。前面都一样的代表转录之后同一个DNA片段,还原回去就是同一个转录本。简而言之,只要前面部分一样最终就会合并成为一条ccs序列。如果拿到的数据只有后面的(251532_251827)说明公司已经将subreads转为ccs了。
但是ccs序列仍然有很多我们不想要的序列,接头尾巴之类的。
Isoform转录本是指来自同一基因的不同mRNA转录产物,它们可能由同一基因产生,但在转录或剪接等过程中发生了变异或修饰,导致它们的序列不同。
transcript和isoform,在生物信息学分析的时候有时候会混用,但比较清晰的一种理解是:转录本就是真实转录出来的一条RNA链,而isoform只是一种可变剪切形式。
一个基因上有多个外显子,可以有很多剪切形式isoform形成不同的转录本transcript。
举例:澳洲棉籽可以制油,很多棉制油不可食用
文件量级标准:
(1)CCS文件100万
(2)Flnc65万 (30万-100万)一般项目水平
可变剪切分析
差异可变剪切:有四个组织(处理),不同组织比较可变剪切差异。