使用kmer的count结果构建numpy的array

最新推荐文章于 2022-11-21 11:27:59 发布

XH生信ML笔记

最新推荐文章于 2022-11-21 11:27:59 发布

阅读量376

点赞数

分类专栏：序列操作二代测序分析

本文链接：https://blog.csdn.net/weixin_44022515/article/details/103572706

版权

序列操作同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

二代测序分析

4 篇文章 0 订阅

订阅专栏

在完成kmer生成的count后，汇总所有样本生成numpy array，用于机器学习的训练

输入文件

不同分类样本的kmer数据文件夹，本文是chrom和plas两类
总的kmer list

import numpy as np
import glob
import argparse
import pandas as pd

parser = argparse.ArgumentParser(description='Make kmer matirx from kmer files of each kmer files using directoruy')
parser.add_argument("totalkmer",help="input the total kmerfile as features")  # 总的kmer的list
parser.add_argument("chrommers",help="input chrommer filesfloder") # chrom样本kmer的文件夹名字
parser.add_argument("plasmers",help="input chrommer files id") # plas样本kmer文件夹的名字
args = parser.parse_args()

# read total kmer list
kmerlist = {}
count = 0
with open(args.totalkmer)as f:
    for line in f:
        i = line.strip().split("\t")
        kmerlist[i[0]] = count
        count += 1

# read chrom kmers
mat = []
chromlist = glob.glob(args.chrommers)
for i in chromlist:
    arr = [0]*len(kmerlist)
    with open(i) as f:
            for line in f:
                     j = line.strip().split("\t")
                     site = kmerlist[j[0]]
                     arr[site] = int(j[1])
    mat.append(arr)
# read plsmid kmers
plaslist = glob.glob(args.plasmers)
for i in plaslist:
    arr = [0]*len(kmerlist)
    with open(i) as f:
        for line in f:                     
            j = line.strip().split("\t")                     
            site = kmerlist[j[0]]                     
            arr[site] = int(j[1])
    mat.append(arr)

allmatrix = np.array(mat, dtype="int32") # numpy array

# make target
target = np.hstack((np.zeros(len(chromlist)),np.ones(len(plaslist))))  # produce label

#delete samples with sum less than 1995 for 2k and 4995 for 5k
# for 5k frag
(allmatrix.sum(axis=1)!=4995).sum()
idx=allmatrix.sum(axis=1)==4995
allmatrix.shape
target.shape

allmatrix_com=allmatrix[idx]
target_com=target[idx]

allmatrix_com.shape
target_com.shape

# save matrix and target
pd.DataFrame(allmatrix_com).to_csv('allmatrix_com.csv')
np.savetxt("target_com",target_com)

# save kmerlist/index as jason files
import json
with open('kmerlist_index.json','w') as f:
    json.dump(kmerlist, f)

#save matrix sample id
sampleid=chromlist+plaslist
sampleid=[x[6:]for x in sampleid]
sampleid_a=np.array(sampleid)[allidx]
with open('matrix_sample_id.json','w') as f:
    json.dump(sampleid,f)

#读取kmerlist
with open('kmerlist_index.json','r') as f:
    kmerlist = json.load(f)
(END)

XH生信ML笔记

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
使用kmer的count结果构建numpy的array

在完成kmer生成的count后，汇总所有样本生成numpy array，用于机器学习的训练输入文件不同分类样本的kmer数据文件夹，本文是chrom和plas两类总的kmer listimport numpy as npimport globimport argparseimport pandas as pdparser = argparse.ArgumentParser(...
复制链接

扫一扫