gff3等文件转12列的bed文件
费劲千辛万苦,终于算成功了,还没测试最后的结果,不过估计差不多了
快哭了,弄了大半个晚上,因为使用convert2bed转换的bed文件并不是想要的,具体的导致差别的原因目前我还不清楚,总之,这个算是给自己的一个提醒,希望也能给其他人一个帮助。
使用transdecoder工具里面的脚本gff3_file_to_bed.pl会报错,现在还不知道为什么,UCSC的gff3ToGenePred.dms还没整明白,不过也能进行转换。bedops的gff2bed生成的也不是想要的12列的bed数据,这个和convert2bed差不多,我差不多一个一个试了,学习就是一个踩坑的过程。(;´༎ຶД༎ຶ`)
总之,最后使用 Juke34 这个大佬写的agat中的agat_convert_sp_gff2bed.pl 脚本转换成功了,具体的运行脚本什么的我也不写出来了,就一行的事,长路漫漫,希望自己能够一直保持一颗学习的热枕! 加油!!
agat的使用一定要看它的帮助文档,要按照perl大量的依赖包,不过这个也不是什么难事,碰到问题谷歌就行了!
这是处理前的文件
Chr1 phytozomev10 gene 3631 5899 . + . ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1 phytozomev10 mRNA 3631 5899 . + . ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10
Chr1 phytozomev10 five_prime_UTR 3631 3759 . + . ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964
Chr1 phytozomev10 CDS 3760 3913 . + 0 ID=AT1G01010.1.TAIR10.CDS.1;Parent=AT1G01010.1.TAIR10;pacid=19656964
Chr1 phytozomev10 CDS 3996 4276 . + 2 ID=AT1G01010.1.TAIR10.CDS.2;Parent=AT1G01010.1.TAIR10;pacid=19656964
Chr1 phytozomev10 CDS 4486 4605 . + 0 ID=AT1G01010.1.TAIR10.CDS.3;Parent=AT1G01010.1.TAIR10;pacid=19656964
Chr1 phytozomev10 CDS 4706 5095 . + 0 ID=AT1G01010.1.TAIR10.CDS.4;Parent=AT1G01010.1.TAIR10;pacid=19656964
Chr1 phytozomev10 CDS 5174 5326 . + 0 ID=AT1G01010.1.TAIR10.CDS.5;Parent=AT1G01010.1.TAIR10;pacid=19656964
这是处理后的文件
Chr1 5927 8737 AT1G01020.1.TAIR10 0 - 6914 8666 255,0,0 10 336,633,76,67,86,74,46,90,48,167 0,509,1229,1456,1636,1834,2014,2308,2489,2643
Chr1 6789 8737 AT1G01020.2.TAIR10 0 - 7314 8666 255,0,0 8 280,294,86,74,46,90,48,167 0,367,774,972,1152,1446,1627,1781
Chr1 11648 13714 AT1G01030.1.TAIR10 0 - 11863 12940 255,0,0 2 1525,380 0,1686
Chr1 23145 31227 AT1G01040.1.TAIR10 0 + 23518 31079 255,0,0 20 1306,114,211,395,220,173,123,161,234,151,183,162,96,629,98,191,906,165,407,326 0,1396,1606,1895,2378,2679,2935,3146,3397,3716,3953,4226,4472,4657,5562,5744,6014,7001,7264,7756
Chr1 23415 31120 AT1G01040.2.TAIR10 0 + 23518 31079 255,0,0 20 1036,114,211,395,220,173,123,161,234,151,183,165,96,629,98,191,906,165,407,219 0,1126,1336,1625,2108,2409,2665,2876,3127,3446,3683,3956,4202,4387,5292,5474,5744,6731,6994,7486
Chr1 31169 33153 AT1G01050.1.TAIR10 0 - 31381 32670 255,0,0 9 255,82,121,66,108,66,29,124,125 0,351,523,763,918,1112,1261,1377,1859
Chr1 33378 37757 AT1G01060.3.TAIR10 0 - 33991 37061 255,0,0 10 211,347,1074,81,234,62,112,181,26,189 0,602,1022,2188,2351,3245,3431,3644,3994,4190
Chr1 33665 37840 AT1G01060.1.TAIR10 0 - 33991 37061 255,0,0 9 662,1074,81,234,62,112,181,26,272 0,735,1901,2064,2958,3144,3357,3707,3903
Chr1 33665 37780 AT1G01060.2.TAIR10 0 - 33991 37061 255,0,0 8 662,1074,81,234,62,112,181,408 0,735,1901,2064,2958,3144,3357,3707
总之,就是这些了! 其他的问题自己去探索把!
这是解答的网址: https://www.biostars.org/p/321562/
这是agat的下载地址:https://github.com/NBISweden/AGAT#install-prerequisites