生物信息
xuqimm
会经常发自己的学习笔记,希望和大家共同进步
展开
-
使用python提取蛋白质序列的相似位点
这是本人的第一篇博客,以后还会更新一些类似学习笔记的东西话不多少,直接上代码#!/usr/bin/pythonimport numpy as npfrom collections import Counterwith open('A1.fasta','r') as A1: #打开蛋白质序列 with open('senA1.fasta','w') as原创 2017-03-30 19:12:03 · 4249 阅读 · 2 评论 -
蛋白质序列序列特征段神经网络训练集的提取
这段代码的意思是,先找出每一竖列出现次数最多的碱基,再根据出现的频率进行排序,再用特征序列的碱基位置找到原序列真实的碱基,形成一个训练集,为之后的神经网络训练做准备。我这里使用的蛋白质序列都是事先用muscle跑过的(不知道muscle的同学可以搜一下‘多序列比对软件muscle ’)#!/usr/bin/python#coding=utf-8import stringimpor原创 2017-04-01 18:24:15 · 4081 阅读 · 0 评论 -
一些关于蛋白质序列分类的总结
毕设题目是“基于神经网络的蛋白质分类器设计”经过一些努力现在分类的精度到达了98%,但其实仍然不理想,导师其实希望我能做个100%精度的。总结一下那2%失败的原因:GPCR家族LEVEL2的分类里,有两类序列特别少,只有3条。我如果拿两条建模,一条测试,就会导致建模不准确,测试序列也无法正确分类,如果我拿全部的3条序列进行建模,模型是准确了,但没有用来测试的序列,谁会信你的模型是精确的原创 2017-05-05 15:45:55 · 4113 阅读 · 6 评论