摘要
在分析常规项目的时候,一般我们会在NCBI或者UCSC上下载参考基因组还有对应的注释文件。但有时遇到的客户是自己组装的序列,而他们提供的参考基因组和注释文件都是自己组装或者用注释工具生成的,在格式上和标准数据库里的结果有些细微差别。这些格式问题对于刚入门的小白而言,在不知道的情况下分析起来会时常受阻。
问题描述
这次我们就遇到一个fa后缀的参考基因组,但是换行符是windows格式的。Windows系统里面,每行结尾是回车符+换行符,即"\r\n";而在Unix系统里面,每行结尾只有换行符,即"\n"。这样会导致win格式的文本在Unix中显示出^M的回车符号。要换掉这个格式的回车符+换行符,我们有三种方法。
解决方法
vim界面中命令替换
使用vim打开文本后,使用 %s/ctrl+v ctrl+m/\n/g
命令进行替换。
%:全局符号,直接替换文本中所有符号;
ctrl+v:回车符,在vim界面中输出符号为"^";
ctrl+m:换行符,在vim界面中输出