tcga的symbol数据区分lncRNA和mRNA

z2498249

已于 2024-01-22 11:49:49 修改

阅读量723

点赞数 3

分类专栏：生信文章标签： python

于 2023-06-29 16:41:19 首次发布

本文链接：https://blog.csdn.net/z2498249/article/details/131459246

版权

生信专栏收录该内容

5 篇文章 1 订阅

订阅专栏

帮家里的医生做个数据，她之前买过一个叫做“148cuproptosis.rar”的code。第7节的07.biotype的code biotype.pl 失效了，生成的两个文件lncRNA.txt和mRNA.txt都是空的。我不想去搞perl了。我用python重新写了一段。原理就是比对symbol.txt和ann.tsv文件。

import numpy as np
import pandas as pd


if __name__ == '__main__':
    symbol = pd.read_csv('symbol.txt', delimiter='\t')
    ann = pd.read_csv('ann.tsv', delimiter='\t', header=1)
    ann_lncrna = ann[ann['gene_type'] == 'lncRNA']
    ann_mrna = ann[ann['gene_type'] == 'protein_coding']
    sysbol_lncrna = symbol[symbol['id'].isin(ann_lncrna['gene_name'])]
    sysbol_mrna = symbol[symbol['id'].isin(ann_mrna['gene_name'])]
    sysbol_lncrna.to_csv('lncRNA.txt', sep='\t', index=False)
    sysbol_mrna.to_csv('mRNA.txt', sep='\t', index=False)
    unkown_rows = symbol[~symbol['id'].isin(ann_lncrna['gene_name']) & ~symbol['id'].isin(ann_mrna['gene_name'])]

使用方法

1.安装python3，之后打开cmd，

pip install pandas
pip install numpy

2.在07.biotype文件夹下新建biotype.py，将code复制到文件中。

3.打开cmd， cd到07.biotype文件夹。

4.cmd中运行

python biotype.py

有些医生同学对python还代码不太懂，附加一些简单说明：

1. 首先python需要自己安装，python分python2和python3，要装python3（版本为3.xx），不要装python2（版本为2.xx）的。如果两个都安装了，记得卸载python2。

2. 用pip安装pandas和numpy时，可能时pip install xxx 也可能是pip3 install xxx，看哪种能安装。

3. 打开cmd后，一定要cd到07.biotype这个文件夹，在07.biotype目录下再去运行python biotype.py。

4. 07.biotype文件夹下要有symbol.txt和ann.tsv文件。

再有其他错误可以发给我

z2498249

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
10
评论
tcga的symbol数据区分lncRNA和mRNA

帮家里的医生做个数据，她之前买过一个叫做“148cuproptosis.rar”的code。第7节的07.biotype的code biotype.pl 失效了，生成的两个文件lncRNA.txt和mRNA.txt都是空的。我不想去搞perl了。我用python重新写了一段。原理就是比对symbol.txt和ann.tsv文件。2.在07.biotype文件夹下新建biotype.py，将code复制到文件中。3.打开cmd， cd到07.biotype文件夹。1.安装python3，之后打开cmd，
复制链接

扫一扫