拆分PDB结构，使每条链成为一个单独的pdb结构

@ZyuanZhang

已于 2022-07-26 11:25:37 修改

阅读量2.7k

点赞数 2

分类专栏：生信文章标签： python

于 2022-03-21 14:46:53 首次发布

本文链接：https://blog.csdn.net/weixin_44065416/article/details/123635197

版权

生信专栏收录该内容

11 篇文章

订阅专栏

说明：parse_pdb_split_chain()函数用于将PDB中包含的链拆开，包括对应的alpha-helix、beta-sheet、links信息 (不足之处在于由于暂时没有遇到含有TURN的PDB结构，所以暂时没有获取对应的turn信息)。

import gzip
import re

def parse_pdb_split_chain(pdbgzFile,outpath):
    with gzip.open(pdbgzFile,'rb') as pdbF:
        pdbcontent = pdbF.read()
        pdbcontent = pdbcontent.decode()

        pattern = re.compile('ATOM\s+\d+\s*\w+\s*[A-Z]{3,4}\s*(\w)\s*.+\n',re.MULTILINE)
        match = list(set(list(pattern.findall(pdbcontent))))

        for chain in match:
            patt_helix = re.compile('(HELIX\s+\w+\s*\w+\s*[A-Z]{3,4}\s*'+chain+'\s*.+)\n',re.MULTILINE)
            patt_sheet = re.compile('(SHEET\s+\w+\s*\w+\s*\w+\s*[A-Z]{3,4}\s*'+chain+'\s*.+)\n',re.MULTILINE)
            patt_links = re.compile('(LINK\s+\w+\s*\w+\s*'+chain+'\s*.+)\n',re.MULTILINE)
            patt_cha = re.compile('(ATOM\s+\d+\s*\w+\s*[A-Z]{3,4}\s*'+chain+'\s*.+)\n',re.MULTILINE)
            
            match_helix = patt_helix.findall(pdbcontent)
            match_sheet = patt_sheet.findall(pdbcontent)
            match_links = patt_links.findall(pdbcontent)
            match_cha = patt_cha.findall(pdbcontent)
            
            outfile = outpath+pdbgzFile.split('/')[-1].split('.')[0][3:].upper()+'_'+chain+'.pdb'
            outF = open(outfile,'w')
            for i in range(len(match_helix)):  ## alpha-helix
                outF.write(match_helix[i]+'\n') 
            for j in range(len(match_sheet)):  ## beta-sheet
                outF.write(match_sheet[j]+'\n')
            for k in range(len(match_links)):  ## Links
                outF.write(match_links[k]+'\n')
            for l in range(len(match_cha)):  ## ATOM
                outF.write(match_cha[l]+'\n')
            outF.write('TER\n')
            outF.write('END\n')
            outF.close()