纯生信发ISME的一次试炼

未觉春色早,但闻暗香迟。

晨光唤我醒,月影共晚眠。

好文着奇色,博学流涛光。

风华时正茂,骚人当此时。


—— 花影君情 《喜贺文涛新作》20200718


恭喜九舍基金委员会新任主席~文涛博士于2020年07月17日在国际知名期刊ISME上发表高水平论文。






基于大数据整合微生物群落可以准确的判断枯萎病是否发生



写在前面

我写这么一篇短文,目的在于交流文章发表过程的经验和经历,一方面我对自己做一个总结,提出改进的地方;一方面希望能帮到更多的朋友,加油继续干!!!

我在本文中致谢部分添加了对“微生信生物”和“宏基因组”公众号的致谢,一方面感谢宏基因组刘(永鑫)老师等人交给我的教程,其次感谢微生信生物平台让我展示自己,在写作的过程中真正得到理解和应用,缺一不可。这篇文章也是新时期下对数据整合的一个应用,属于我新时代学习过程中的副产物,思想来源于新闻、推送、咨询、讲座等途径。我渐渐地开始和成长于这两个公众号还有一些其他公众号之间,在沈其荣老师和袁军老师,以及刘永鑫老师的指点下,最后借用 ISME 的平台推送出来。




引子

这个故事得从两年前说起,我是2018年九月份转博士的。在当年3月份,我进行转博答辩,沈老师是主持人。我当时并没有将纯生物信息的内容放上去讲,而是用两年来做的实验做了十几张ppt。当时还要考博士英语,感觉精力也用不上去。ppt讲的一般。所幸英语过了,算是垫底通过的博士。

为什么说这场转博答辩是做这篇文章的开端呢?之前总是零零星星的听沈老师讲这个枯萎病发病微生物群落特征不太清楚,在答辩过程中,(薛)超哥提到了一个想法:是否可以整合六楼的群落测序数据?沈老师当时积极回应。毕竟在这方面,确实测定了许多的数据。事实上,整个答辩过程,我也就听进去了这几句话,这也就是这篇文章的开端。

答辩后一段时间,我做实验比较多,也在持续学习生信分析,两年了,感觉也没出什么完整的成果,总感觉达不到出文章的程度。郁闷了几天后我便思考了这样一个问题:整合扩增子数据,可不可以把全国,甚至全世界相关数据都囊括进去呢?

当我敲定这个想法之后,就开始了行动。本次整合的数据只有扩增子,想出来了想法,但是要付诸行动,后面的工作也证明确实困难重重,当时我学习的技术只能算是一般,并不能解决许多问题。




第一阶段:构造分析体系

  • 构造分析体系的第一个问题就是下载数据,我尝试了许多方法,以 NCBI 为首的数据下载流程开始构建了。(随着时间发展,我下载数据几乎走到了实时监测和自动化运行的地步,靠泪水铺的路自当稳固结实)

  • 数据整合策略,当时我构思了两套分析策略,最后还是选择本文这套——最保守的策略,因为我关注的是枯萎病微生物群落特征嘛!(到现在我基于不同目的的多套方案,策略等已经运用的十分娴熟)。

       这两套分析策略敲定后,我就开始数据下载和 run 的工作。当时也没有考虑后面是否可以顺利啥的。马马虎虎,愣头青的就要开始。那个时候是暑假,正好我的博士课题确定了,沈老师安排我做嫁接。我自己是很喜欢的,于是在这暑假的这段时间我自学了嫁接,买了八种砧木和西瓜种子,就开始嫁接了。当时从网上看了点小视频,把自己吉列锋速的剃须刀片拆下来,应用到嫁接。运作熟练后我慢慢的开始了大规模的嫁接。只是没想到后面的工作也将暂缓下来。

      与此同时,跌跌撞撞的下载了几个月数据,却发现至少有2/3的数据都是不能使用的,这在很长一段时间让我打消了做这件事情的热情。 一方面,我埋怨为什么数据用起来这么费劲,一方面埋怨自己为什么没有提前想到这些糟糕的事情,就不用在费劲下载数据了。这几个月下载数据,也花了不少钱,一个月五十块的校园网,后面足足花费了我四个多月的网费,但是都是自己一腔热血要做,毕竟花钱也是很心疼的。这期间和张赫一起度过了许多个在实验室通宵的日子(“只要干不死,就往死里干!”——九舍基金委员会的一位龙哥说的,也期待他的大作......)。额,只是嫁接也需要许多的时间啊!期间,师姐也陪着我去嫁接了几次,张超师弟也给我种了几次苗子,收集了几次分泌物。在此致谢!

      终于,我们在年底初步完成数据下载和基本分析。 那个时候我并不知道嫁接以后和我也没什么关系了,大量的时间可能要做数据整合和分析体系了。

      因为从开始这批东西是“地下”的,纯属一时兴起。后来和小老板聊了一下,发现没有反对,还挺支持的,但是我也没敢有太大的自信承诺多少天完成。后来我一直做,老板也没怎么过问,但这期间,嫁接的东西也没敢放下。快年底了,慢慢数据下载完了,基础分析出来了。我慢慢和袁老师也多聊了几次。袁老师开始督促我出一些结果。 




第二阶段:数据整合和多样性分析

到这个阶段,这个工作就转到“地上”了。这个部分重点在数据整合上,没有方便的脚本,我就开始自己造轮子,将需要的信息通过更好的方式进行整合。这时候phyloseq的数据形式对我帮助最大,能让我用各种方式整合扩增子数据和一体化的后续分析。同样的轮子需要再次制造,多样性分析之前我们需要做许多的评估,尤其是样本数量,OTU丰度和序列数量在不同研究中的情况统计和过滤。但是幸好完成了,当时编码能力也不能说很强,还好我没有放弃。

此时已经到年末了,这段时间更是住在了实验室。我还是在拼命完成这项工作。但是年底也没有做好数据合并工作。

过年回到家,那个时候我还不懂得数据的重要性,好几百G的数据只有一个备份,家里有个小孩动了我的硬盘,数据就打不开了。后来我就将这个工作拖到了学校,后来五月份了,我还是没有继续开展,也算是整整脱了三个月了。哎,又能怎么办呢?数据没了。(何以解忧,唯有杜康!)

袁老师看出来我的困惑,让我去恢复硬盘,几千块钱花下去,打通了任督二脉,硬是将硬盘修好了。为了袁老师这几千块钱,我也要整合起来数据呀,终于在6月底之前完成了各种多样性分析。




第三阶段:机器学习

实际上多样性也看不出来什么,无非是什么alpha多样性,beta排序等。多了做一些网络分析。不过由于我们实在是挖掘不出来什么有用的信息,所以当时在网络上下了很大的功夫,各种尝试。实际上也没什么用。直到暑假到来。

去年暑假我都是以实验为主,心里还想着怎么筛菌,怎么做实验,不过那时我就已经给袁老师说过想要加强一些分析工作,所以就一直在往分析上面靠。七月份,一个偶尔的机会,我对数据尝试了一下机器学习。当时效果还是挺好的。错误率百分之十几。心想这样不就可以找到所谓的特征了嘛!拨云见雾啊!于是从那个时候起,我就开始尝试用各种机器学习方法,记得至少用了七八种,文章中最后挑选了三种机器学习。总之,找到最合适的就可以了,不在尝试的多。

最终敲定了随机森林,也就直接提取了特征,后来基于特征做的分析也就顺水推舟了。这段时间内,嫁接实验慢慢停下来了,应该是老板们讨论过了?!确实没有催着我去做。



潜心著文章,一鸣惊人

到了八月底,九月份初,基本结果做的差不多了,于是开始精细的出图。差不多花了一个月,这期间我换过好多种可视化方式,尤其是机器学习部分和网络可视化部分,总觉得不够满意。最后敲定了本文的可视化方式。在袁老师的同意下,我开始了写作,不得不说这是我最薄弱的一环,整整几个月,从材料,到结果,到讨论,就像登山一样艰辛。感谢袁老师愿意给我修改,并花费了大量的功夫。十一月底终于写完初稿,我也松了一口气。

这段时间伴随着我的开题,还要写开题报告。我和袁老师商量了,后来袁老师让我用这篇文章为开题内容。那段时间可视化工作做的差不多了,文章整在挤牙膏。 开题时,我讲的比较少,有些内向,所以没讲出来几句话,沈老师和大家都看了看ppt。总体还是积极的评价了我和袁老师的工作。许多老师有些问题,当然也没有足够的时间让我去解释,就过去了。

殊不知后面的工作才是触目惊心,各种修改,同组老师看了之后我要改,图表,结果等,一步一步看着我的语言删除掉,即使心里挺不愿意删除的。12月初,我找袁老师,找刘永鑫老师修改文章,我看到刘老师提出来许多专业和宝贵的意见,我全部接收,并做了详细认真的修改。刘老师修完和我改完就已经是一月份了,袁老师找了国外的大牛在实验设计和语言上有提了一些意见,我又继续修改,在袁老师的把关下,终于在2月初开始了投稿。

在其他两个期刊上试试水后,直接选了ISME,那个时候已经一个多月过去了,也就是说我们在ISME上尽历了三个月,终于在6月份完成了这篇文章的接收。 艰难的路一路走来,所有的付出和艰辛都值了!




为了更好的明天,还需砥砺前行

总体来说这是一次有益的尝试,但微生物组数据整合工作却才是起步。我要做的和能做的不仅仅如此,希望大家也可以在这个方向贡献力量,深入交流。从闭门造车到大量阅读相关文献,到构建多个候选分析流程,选择合适的分析流程,我做的还不够,希望能有时间和大家一起讨论:微生物组大数据整合的方案。

最后我在ISME的致谢部分分别致谢了宏基因组公众号,因为宏基因组和刘老师确实帮助了我许多。其次我致谢了微生信生物,因为我在写教程的同时,确实带给我了巨大的成长和提高。两个公众号,不同方式,相同的提高和成长。值得感谢!!




  何许人也

文涛,博士在读,2016年就读于南京农业大学,荣拜资环院沈其荣教授课题组,研究方向为根际微生物生态。在The ISME Journal,Microbiome,BMC Plant Biology等期刊上发文。目前正在写差异分析一站式解决R包:Easystat,网络分析可视化R包:ggClusterNet等多个R包。“微生信生物”公众号创始人,2019.1加入“宏基因组”公众号任编辑,2019.12起任副主编, 发表《Microbiome:根系分泌物驱动土壤记忆抵御植物病原菌《DADA2中文教程v1.8》《Graphlan学习笔记》《中国核酸数据库GSA数据提交指南》等文章10余篇。大家有兴趣可以通过2018203048@njau.edu.cn交流。欢迎打扰!


猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值