一般分析生信数据,基本上都需要在大型服务器上去处理,以及执行任务;
一则是linux系统便利,二则是生信测序大数据普通PC难以处理,
这篇博客的问题就在于如何解决服务器需求的问题,包括云VPS
1,实验室有矿,或者就是做计算的,反正有服务器
2,看看能不能在导师帮助下到计算组趁一个服务器账号,
3,超算平台看看能不能跑;
好了,废话不多说了,写这篇博客就是为了解决白手起家的case问题:
1,R:
(1)pc上的R+Rstudio,换其他的R的IDE也可以,前提自己pc够叼
(2)在线平台:
①rstudio官方在线平台https://posit.cloud/,每周限时(配置比较鸡肋)
②intel devcloud:
没有sudo以及root权限,用不了Rstudio-server,但是可以R+jupyter作为IDE。
安装R很简单,用mamba search装最新版的r-base;
装jupyer并配置为IDE:只需要在jupyter中安装R内核IRkernel即可;
教程参考:
https://mp.weixin.qq.com/s/O0Xxlvr-R-lLkMOZUgTUAQ
https://mp.weixin.qq.com/s/WhDYzzXYTIL3ScPIjKZ0pw
https://mp.weixin.qq.com/s/1tRMd-ONTutDG9zW-TGb6w
https://mp.weixin.qq.com/s/UFq_GwkA671nOsd9poGoLw
(https://notebooks.edge.devcloud.intel.com/)
但是注意!!!
Jupyter中并不能正常安装R包,目前个人亲测有效的方法是:
在jupyter当前的环境env中,在命令行中mamba search并安装R包,比如说
mamba search ggpubr #实际上linux中的R包会比较有特征性,例如r-ggpubr,或者直接以bioconductor为前缀,这一点实际也可以去bioconda搜R包
mamba install -y r-ggpubr=最新版本
或者可以直接去bioconda频道查看,
或者可以去对应R包的github官网等,
总之,要注意不要在命令行中进入R,做install.packages(),是不进入R编辑器直接在外面linux中用mamba搜索并安装!
总之,涉及到R包的管理安装之类,统一在外面环境中mamba进行,然后就可以打开同一环境下的jupyter开始玩耍了!
jupyter+R弥补了没有rstudio-server的图像IDE的缺点,虽然没有rstudio做的好,但是没有sudo/root权限的最佳上策。
③google colab:https://colab.research.google.com/
能够以jupyter形式运行R
2,python:
(1)pc上的vscode,或anaconda(带jupyter)
(2)在线平台:
①google colab(也可以作为深度学习的临时炼丹炉):进一步可以付费pro
②intel devcloud:装或不装jupyter都有
③kaggle等数据分析平台
3,服务器:
(1)intel devcloud:
参考https://wzfou.com/devcloud-apponfly/
https://srv.pub/archives/intel-devcloud.html(参考如何极致max化)
https://51.ruyo.net/17346.html
https://blog.csdn.net/hhhny/article/details/130309683
https://xtrojan.org/server/vps/intel-developer-cloud.html
没有ssh,只能web IDE;
但是没有sudo以及root;
恐怕也不能挂在后台nohup运行任务,1次只能10h,估计只能人一直待在前台监控任务运行,不能离开;
暂时1次周期内数据没有丢失;
所以建议你的任务是小任务,并且是下游的任务,最好是日结的任务,做好每一步的数据备份!
如何持久(按理来说,2023年做srtp时候的春季,4月左右,到现在的2024年的9月份,实际上就是已经做到了1年,1年,虽然说变更了账号,但是理论上来说,已经是5年的20%,或者可以说大论文1年也差不多了,对于硕士而言一般是研二左右开题,那基本上应该差不多够维持了;)
但理论上来说,应该是120也就是4个月左右的账号就会收回,所以5x12/4=15,也就是至少需要开15个账号(mail)。
也有说法是3个月就收回,所以5x12/3=20,需要开20个账号;
所以买贵点你的科学上网工具,
多注册几个微软以及google邮箱,
浏览器隐私模式等;
以及经常去注册mail里延长时间,
之后及时备份中间下游数据,即时的狡兔三窟。
可参考博客,如何注册多个google以及edge邮箱账号。
https://mp.weixin.qq.com/s/d-gGvS4rH3BTYDa3CBW-hw
https://mp.weixin.qq.com/s/Vq9GSKg6EDOP9FJQ0HIuhg
(2)google colab:命令行模式注意下语法,可以付费上pro
https://colab.research.google.com/
(3)free云服务器VPS等:
https://51.ruyo.net/tag/%E5%85%8D%E8%B4%B9%E4%BA%91%E6%9C%8D%E5%8A%A1%E5%99%A8
参考:一搜一大把
https://mp.weixin.qq.com/s/MQ7C2KzhMja9u0heHCqE-g
https://mp.weixin.qq.com/s/XgoIldK0nge4N8yoZPP8mg
https://mp.weixin.qq.com/s/0dnrwZpg1nw29s4eCqpnEQ
(4)最稳妥的:就是租云服务器
租好之后设置好pc端的mobaxterm,以及移动端的termius;
或者是自己组建,看经费
(5)生信分析服务器一般的配置:
当然如果有钱的话也可以去一些公众号上去租云服务器:
参考https://cloud.tencent.com/developer/article/2229763
https://mp.weixin.qq.com/s/13gITQLdZUaV9ac1kV4nyQ
最低配置:
16核/32线程,128G内存,8T硬盘
具体配置查询命令可以参考另外一篇博客:
https://blog.csdn.net/weixin_62528784/article/details/142183872?spm=1001.2014.3001.5501