生物序列生成onehot编码

最新推荐文章于 2022-10-30 10:10:29 发布

Drone_xjw

最新推荐文章于 2022-10-30 10:10:29 发布

阅读量1.8k

点赞数

分类专栏：生物信息学文章标签： python 自然语言处理机器学习

本文链接：https://blog.csdn.net/xjw9602/article/details/109154122

版权

生物信息学专栏收录该内容

22 篇文章 30 订阅

订阅专栏

定义生成onehot类
每次读入一行描述行和一行序列
生成csv文件

import pandas as pd
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import re

# fasta = ">description\nAAAAAAAAAAAAAAACCCCCCCCCCCGGGGGGGGGGGGGTTTTTTTTTTTTTTTT\n"
class hot_dna:
    def __init__(self, fasta):

        # check for and grab sequence name
        if re.search(">", fasta):
            name = re.split("\n", fasta)[0]
            sequence = re.split("\n", fasta)[1]
        else:
            name = 'unknown_sequence'
            sequence = fasta

        # get sequence into an array
        seq_array = array(list(sequence))

        # integer encode the sequence
        label_encoder = LabelEncoder()
        integer_encoded_seq = label_encoder.fit_transform(seq_array)

        # one hot the sequence
        onehot_encoder = OneHotEncoder(sparse=False)
        # reshape because that's what OneHotEncoder likes
        integer_encoded_seq = integer_encoded_seq.reshape(len(integer_encoded_seq), 1)
        onehot_encoded_seq = onehot_encoder.fit_transform(integer_encoded_seq)

        # add the attributes to self
        self.name = name
        self.sequence = fasta
        self.integer = integer_encoded_seq
        self.onehot = onehot_encoded_seq

inputfile = "H_sapiens_acc_sample__len398_pos.fasta"
savefile = "SpliceRover_H_sapiens_acc_pos.csv"

with open(inputfile,"r") as f:
    data = f.readlines()
    for index,line in enumerate(data):
        # index 从0开始,

        if index % 2 == 0:
            fasta = data[index]+data[index+1]
            my_hottie = hot_dna(fasta)
            onehot = pd.DataFrame(my_hottie.onehot)
            onehot.to_csv(savefile,index=False,header=False,mode="a+")
f.close()

Drone_xjw

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
生物序列生成onehot编码

定义生成onehot类每次读入一行描述行和一行序列生成csv文件import pandas as pdfrom numpy import arrayfrom numpy import argmaxfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import OneHotEncoderimport re# fasta = ">description\nAAAAAAAAAAAAAAAC.
复制链接

扫一扫

专栏目录