- 博客(121)
- 资源 (1)
- 收藏
- 关注
转载 bioconda中国镜像(北外备用,清华已恢复,中科大暂时没恢复)
bioconda是conda上一个分发生物信息软件的频道,现在已经有超过2700款软件。由于国内没有基镜像,下载安装生物信息软件速度十分缓慢,经常中断,生物信息人迫切需要一个国内镜像。Bioconda is a channel for the conda package manager specializing in bioinformatics software。2019.6.15高兴地...
2019-06-17 20:44:44 15503
原创 基因检测之《生命的语言》读书笔记
自从高中毕业选择生物工程专业入行,到研究生阶段微生物学的学习,再到工作开始做基因检测方面的工作,很庆幸基本上在生命科学领域学习和工作。每月去一次的图书馆,让我对科技的好奇心得以保持,互联网的畅达,让我得以接触到全世界的资讯。虽然,在工作之余,我的兴趣大部分在电子、电脑和软件方面。这本《生命的语言》就是借自南图,以一个基因检测从业者身份学习科学大家如何对大众进行基因和生命科学的科普。记录一下读书笔记...
2019-02-11 14:33:36 963
原创 GPU加速生物信息分析的尝试
实话实说,暂时只有英伟达的GPU才能实现比较方便的基因组分析集成化解决方案,其他卡还需要努力呀,或者需要商业公司或学术团体的努力开发呀!FPGA等这种专用卡的解决方案也是有的,比如某测序仪厂家,某大厂,专门做加速方案的提供商,以及CPU加速方案提供商等。这里,就先看下普通人可及的英伟达啦,AI的普及,以及黑神话的爆火,让大家都有了相对较好的卡,有的实验室新配服务器也加装了一般的GPU算力卡,除了做AI,也可以考虑下做下加速分析啦!
2024-09-17 17:55:02 1206
原创 两个人群填充参考(CHN100K和NARD)
分别是中国人群和东北亚人群的填充参考,测试了下,中国人群的参考注册还是相对友好的,没有像有些网站一样严格限制。东北亚的没有测试,两个数据库的特点都是包含了少数民族,研究朝鲜或蒙古族或其他民族的同学,研究的填充效果会更好,可以测试下!
2024-09-16 22:11:04 363
原创 neural-admixture:基于AI的快速基因组聚类
Neural ADMIXTURE 是一种基于 ADMIXTURE 的无监督全局祖先推理技术。通过使用神经网络,Neural ADMIXTURE 提供高质量的祖先分配,运行时间比 ADMIX 快得多。该软件可以通过 CLI 调用,并且具有与 ADMIXTURE 类似的界面(例如,输出格式完全可互换)。虽然该软件在 CPU 和 GPU 中运行,但我们建议使用 GPU(如果可用)以利用基于神经网络的实现。
2024-09-01 17:17:19 1294
原创 QIIME2宏基因组学教程--2024年春季莱顿和苏黎世教程
最近在qiime2论坛发现有人发布了qiime2宏基因组的教程,这里分享一下,只是alpha版本,不成熟,大家谨慎了解。qiime2的专用格式对于折腾宏基因组还是有点不妥的,个人观点,但是好在他能让分析标准化,可追溯的话,我觉得还是利大于弊的。使用 QIIME 2 进行的宏基因组学分析目前处于 alpha 版本。这意味着您生成的结果应被视为初步结果,而不是发布质量。
2024-09-01 16:17:07 934
原创 普大喜奔!usearch开源+64位旧版本免费用
前段时间听说USEARCH即将开源,今天另一位小编发现GitHub上已经有开源代码了。我们随即搜索了开源版本的使用效果,发现V12版本的测试结果不尽如人意,具体详情请参阅这篇公众号文章。正当我感到失望时,浏览评论时发现了意外的惊喜——旧版本的64位已经开放下载了!于是我们决定测试一下并向大家分享使用体验,一起试试吧!
2024-06-30 15:10:52 549
原创 爬虫可以不必自己写,使用ChatGPT编写抓取电影评论数据脚本
你是网络数据抓取的高手,熟练掌握 Python 编程语言,具有良好的网络编程基础,能够熟练使用网络爬虫框架,具备数据处理和分析能力,以及自我学习和解决问题的能力。然后,我们就得到了代码,当然,可能有个别报错,一般来讲对应修正下就可以啦,或者让gpt自己纠错下!Devin这个AI程序员,以及metaGPT等也做了开源的程序员,应该比这个是强大了,不管怎样,简单的代码gpt还是hold住的。这里是会报错的,以下是纠错后的代码,我觉得GPT的爬虫水平比我好啦,因为我已经好久没写啦,忘光啦!
2024-06-09 17:31:06 1071
原创 把chatgpt当实习生,进行matlab gui程序编程
最近朋友有个项目需要整点matlab代码,无奈自己对matlab这种工科的软件完全是外行,无奈只有求助gpt这种AI助手了。大神们告诉我们,chatgpt等的助手已经是大学实习生水平啦,通过多轮指令交互就可以让他帮你完成工作啦!所以,你只需要给他提各种要求啦,只要不是太离谱,一般情况下它会实现的,把需求说清楚,把报错给到它,哪怕是一次不正确,不要放弃,不停地告诉它错啦,它终会给你正确的处理的!这里分享下我的一个简单的测试!
2024-06-09 17:26:59 1458 3
原创 一文读懂Prodigal教程
于2007年开发,是一种用于细菌和古细菌基因组的蛋白质编码基因预测软件工具,Prodigal 已成为世界上最受欢迎的微生物基因预测算法之一。首字母缩略词代表karyoticenefindinggorithm。提供了“Prodigal”一词的几种定义。作者希望援引的是:**3.**丰富多彩;丰富:大自然的Prodigal资源。而不是更常见的含义(例如浪费,或“Prodigal回头”)。
2024-02-02 12:08:36 2874
原创 Dryad数据库学习
亲测无需注册,可以直接下载,从一个数据测试看,数据存储在亚马逊云,下载速度还可以,6M/s的样子。Dryad 是一个开放的数据发布平台,也是一个致力于所有研究数据的开放可用性和常规重用的社区。Dryad 通过实现所有研究数据的公开发布和常规重用,推进了我们的愿景——研究数据的开放可用性和常规重用,以推动研究成果的加速发现和转化为社会利益。
2024-01-02 12:02:46 1684
原创 touchHLE实战之游戏
都是针对IOS2的,对于游戏怀旧党,相当不错,再也不需要购买个物理的iTouch,虽然成本低到只有50块,但是电池是真的不行呀!当然,如果你是个技术党,也可以qemu进行模拟,但是我亲测失败啦!
2023-12-31 14:42:56 1242
原创 跟着NC学cfDNA全基因组片段化丰度谱分析
R中有组织的 + 可重现 + 可共享的数据科学框架,Workflowr结合了编程(knitr和rmarkdown)和版本控制(通过git2r的Git)来生成一个包含时间戳记,版本控制和文档化的结果的网页。任何R用户都可以快速轻松地使用它。其设计的初衷是助研究人员以促进有效的进行项目管理,可重复性的分析,同时进行协作和对结果进行共享。
2023-05-20 14:04:00 1076
原创 Nature子刊:HPV改变阴道菌群的机制
细菌性阴道病(BV)是育龄妇女常见的阴道疾病,其特点是以阴道加德纳氏菌和其他厌氧细菌(如阴道阿托巴氏菌、普雷沃氏菌等)为主的细菌取代了占主导地位的乳酸杆菌。三十年的流行病学研究报告证明,性伴侣的多样性、阴道冲洗和吸烟等是感染BV的危险因素。阴道菌群的失衡很可能是多因素的,涉及外部因素、构成阴道内源性微生物群的不同种类的细菌和宿主粘膜之间的复杂相互作用。来自比利时的科学家通过6000人的大型回顾性队列研究发现,HPV阳性患者的3年BV持续率为50.1%,而非感染者为41%。改变阴道菌群并促进局部癌变。
2023-04-21 13:26:24 750
原创 奇怪的R语言apply问题及解决
打印出来才发现问题所在,正数多了个空格,导致结果错误,但是单独放一行上去结果是OK的。就是这么神奇有没有,怎么解决呢,as.numeric转化成数值试试?我想用apply函数筛选一下第三列V4中的数据,用一个稍微复杂的条件,这里我简化成了是否大于0,当然,如果只是>0,太多方法可以实现了,只是复现最小错误。今天遇到了一个百思不得解的问题,记录一下,欢迎交流讨论。为了简化问题,我把数据删除到两行,并把问题最小化了。这些函数都是matrix的,首先会转换成matrix,如果有字符串首先变成字符串类型的。
2022-10-26 08:37:07 615
原创 PyTorch编译尝试笔记
发现手上的GT-740M,已经太老,算力3.0,早被pytorch抛弃,想要学习下深度学习,基于没好卡,刚好时间还有点,花了一天的时间编译了一下,发现显存是个大难题,可以把数据或模型搞小点吧!主要参考了这两个,基本上是个体力活,只按按照版本来的话是不会报错的,当然,也是挺花时间的,需要6个小时以上,i3-3120M,双核2.5G Hz的CPU。
2022-10-05 16:29:02 1153
原创 使用RTL SDR 和VirtualRadar看飞机的问题解决记录
1、显示英国或者美国的地图,位置不对为了防止网络代理的影响,第一建议退出所有代理,因为地图现在默认不用谷歌,梯子基本无用了。然后在VirtualRadar增加接收器的位置,2、连接接收器失败主要是端口问题,设置为RTL-1090快捷方式中设置的相同即可,默认应该是30003,如果设置这个应该不用改的。3、设置完没反应重启软件生效参考的教程:https://www.cnblogs.com/ywsoftware/p/3684870.htmlhttps://blog.csdn.net/qq.
2021-06-06 16:51:08 1960
原创 新技能Get!宏基因组分析结果导入qiime2分析和可视化
最近读微生态公众号中宏基因组的文章,发现阿童木写的教程,宏基因组的数据可以导入qiime2分析。于是有了发现新大陆的感觉,qiime2是一个优秀的可视化工具,有它在手,分析不愁呀,可是作者并没有给出怎样导入数据的教程,我摸索了一番,基本解决了问题,欢迎交流呀!数据是使用biobakery的流程得到的metaphlan3的结果,如下图所示:如果不清楚biobakery流程可以参考BioLink-鲍志伟的这篇:https://mp.weixin.qq.com/s/ET6Jl9kld0oHKLbK2OS-
2021-05-18 08:33:37 1432 2
原创 高效R编程
这是《高效R语言编程》的学习笔记,前面的笔记在这里:https://blog.csdn.net/zd200572/article/details/115349366https://www.jianshu.com/p/71392ef45d01很多R语言用户并不认为自己是程序员,我也是:),精通专业知识,理解R语言的标准数据结构,但是缺乏正规编程训练,你是这样的吗?高效编程的5个技巧1、小心,尽量不要增大向量的大小2、尽可能向量化代码3、适当时机下使用因子4、通过缓存变量避免不必要的计算5、
2021-04-25 16:42:39 197
原创 高效使用R笔记2
R启动文件每次R语言启动读入.Renviron和.Rprofile两个文件,前者主要是环境变量,程序位置和API密钥等;后者是启动进需要运行的几行R代码。启动时先找.Renviron,然后是.Rprofile,它们出现在3个目录中,安装目录(R_HOME,R.home()),家目录(HOME, Sys.getenv("HOME"))和当前工作目录(getwd())。.Renviron.Rprofile...
2021-04-20 15:30:47 467
原创 sWGS检测CNV的一点探索
ichorCNA笔记这个软件可以检测切除的肿瘤组织,识别其中的肿瘤细胞含量,也可以用来检测纯肿瘤组织。可以有参考,也可以不用,官方提供了参考,可以自建。1、 软件安装软件官网:https://github.com/broadinstitute/ichorCNAlibrary(devtools)install_github("broadinstitute/ichorCNA")2、软件使用# 1、准备数据,分块10Khmmcopy_utils/bin/readCounter --window
2021-03-28 16:17:09 1241 8
原创 biobakery流程之有参宏基因组分析
biobakery_workflows wmgx --input ./ --output outputads 8 #--dry-runtrain-profiling --local-jobs 5 --threa(Jan 23 07:27:31) [ 0/28 - 0.00%] **Ready ** Task 4: kneaddata____s5-3(Jan 23 07:27:31) [ 0/28 - 0.00%] **Ready ** Task 0: kneaddata____
2021-02-28 16:53:30 2801 11
原创 Kraken2 Vs qiime2 16S物种注释
最早接触Kraken2这个软件是在宏基因组,但官网上说其实这个软件也是可以用于16S物种注释的。当时没怎么在意,后面发现有个美国肠道微生物检测公司Thryve是使用这个软件进行物种注释的。最近发现2020年9月的一篇文章是比较了kraken2和qiime2的物种注释结果,详细见宏基因组公众号的文章。今天我要说的是亲自拿一个肠道微生物的样本测试下这个软件的分类效果,再和自己用的qiime2流程获得的结果比较下,绝知此事要躬行呀。首先说一个令我震惊的发现,作者发现使用qiime2进行物种分类的时候,使用1
2021-02-16 17:52:22 2266 2
原创 SMURF流程之q2-sidle(四)-- 序列重建
SMURF 算法的核心是基于基于 kmer 的短区域重建到全长框架中。有两个步骤,首先是ASV在单个区域基于kmer进行比对,然后完整的序列集组装成重建的计数表。区域比对第一步是每个区域把序列比对到数据库,使用 align-regional-kmers 命令,我们前面使用--kmer-db-fp选项设置了数据库,使用 --rep-seq-fp选项传递ASV序列,最后是区域定义,来自前面你给区域起的别名,要完全一致。比对是一个开心的可并行任务,我们可以通过多多线程提升性能(--p-n-workers参
2021-02-06 16:34:50 564 3
原创 SMURF流程之q2-sidle(三)--reads准备
完成了前面的数据库准备,下面就是reads的准备,基本过程就是把reads拆成对应不同引物的几个部分,后面再重建合并在一起啦。首先声明,这个方法还在开发和完善之路,最近一次更新在这个月,可能结果会有变动,应该说还处于beta版本中,不建议在生产环境中使用。这里就有几种情况啦,一种是已经每个样本每个V区拆好的数据,另一种是每个样本几个V区混在一起的数据,或者完全没拆的数据。这里根据SMURF的示例,按第二种情况进行,应该是最常见的情况。下面是具体步骤:Reads准备尽管SMURF依赖于质控过滤,还是推荐
2021-02-06 16:32:19 743 3
原创 SMURF流程之q2-sidle(二)
前面已经完成了qiime2-slide插件的安装,测试方法就是输入qiime: sidle Plugin for kmer-based marker gene reconstruction.出现了上面的选项,应该就说明已经安装成功了。数据库准备数据库准备是一劳永逸的,前面我们已经完成了数据库过滤的步骤准备一个区域数据库这一步是提取一个区域的数据库,基于K-mer,为了提升内存效率,把简并碱基和重复kmer作为一条序列。# 首先,使用feature-classi
2021-01-30 17:52:20 464 2
原创 SMURF(5R)-Science封面文章使用的16S新流程(二)
前面介绍的SMURF流程的运行以失败告终了,不过这个是这篇文章的参考方法,至于这篇文章改进过的方法,还没有试过,这就试一下,顺便考虑是否能把6区的移植过来,搞个6R呢,可能,算法上有略微的区别,毕竟这篇Science研究的是肿瘤中的含量很少的微生物,用了严格的去污染策略,不管怎样,试试吧!1、环境准备类似上次那个流程,更加简单了些,只需要安装解压下。# 安装MCR,这次是新版本的9.7,重要的事说三遍,必须有图形界面gui,否则会安装失败#必须有图形界面gui,必须有图形界面gui# 下载地址,速
2021-01-30 14:22:57 752 2
原创 SMURF-Science封面文章使用的16S新流程
肠道微生物是近两年的研究热点,但是去年登上Science封面的是一篇研究肿瘤中的微生物的文章,另人眼前一亮,有些肿瘤即使没有与外界环境相通,也是有微生物的存在的。外行看热闹,内行要看看他是具体怎么进行研究的。首先是研究手段,并不是宏基因组,是16S,估计是由于肿瘤中的微生物含量过少,多数不能满足宏基因组的建库所需DNA的量。然后,作者是用了一种不同于常规16S的研究手段进行的,扩增并测序了5段V区(68%的长度),然后合并分析的,作者称之为SMURF的方法流程,认为这个方法是接近于三代16S全长的物种.
2021-01-24 17:53:39 712 5
原创 SMURF流程之q2-sidle(-)及Qiime2安装加速
前面说到Science封面文章用的16S数据分析流程有qiime2的插件版本,可以解决基于matlab MCR standalone版本的报错,于是实践一下!https://github.com/jwdebelius/q2-sidleconda的安装就不表了,教程挺多的。环境准备安装qiime2-2020.11作者说只测试了兼容这个版本,于是就装这个啦!# 激活环境source ~/data_home/Miniconda3/bin/activate# 下载配置文件wget https://d
2021-01-24 17:53:06 558 2
原创 R语言统计分析微生物组数据(第三章3)
3.4 微生物数据组成分析早在1897年,皮尔逊就警告说,在器官测量中使用两个绝对测量值的比值,可能会形成“伪相关”。自1920s以来,地质学的研究人员已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用成分的比率来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中,对数比变换方法被地质学、生态学等领域的统计学家和研究人员广泛接受,因为通过对数比变换,可以消除组成数据的样本空间(单纯性)受约束问题,并将数据投影到多元
2021-01-16 17:10:18 8949 2
原创 如何下载老版本的blast
最近找到一个十年前的老perl脚本,想要运行一下,却发现blastall这个程序已经被抛弃多年了,好在几经搜索,找到了,文件下载地址在这:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.18/记录在这里,方便大家。...
2020-12-17 15:44:05 1123 2
原创 学点深度学习
最近尝试入门点深度学习的内容,首先来个框架试试嘛,tensorflow2.0的GPU要求已经是nvida算力3.5以上的设备,当然,如果你能过G F W,tesla据说可以白嫖。想用自己的设备咋办呢,只有单纯CPU上了,那这速度就无语了,慢上几十倍,毕竟再差的GPU的核心数,也是cpu的几十倍,所以使用opencl,苹果metal等的框架是个不错的选择,在知乎上发现了一个答主推荐plaidml这个框架,这家公司18年已经被intel收购了,虽然intel最近流年不利,至少也是个财大气粗的大厂,自己的Xe独显
2020-12-13 16:55:20 162 1
原创 QIIME 2 2020.11发布啦
下一个更新将是2021.2更新亮点一般通告1、在q2-cutadapt插件中发现了一个数据完整性错误,并在这个版本的qiime2中得到了修复。有关更多详细信息,请查看“q2-cutapt的trim paired,在处理混合方向时”。2、开发人员“staging”环境现在托管在https://packages.qiime2.org!staging环境在开发过程中使用,以前托管在anaconda.org/qiime2-staging。在这次发布的qiime2中,我们遇到了一些打包问题,所以我们提高了一
2020-12-10 15:33:19 331
原创 R语言宏基因组学统计分析学习笔记(第三章-2)
3.23 过度分散和零扁平模型微生物组的物种分类数据,比如扩增子测序的微生物物种读数或者OTU数或者转录组的不同表达量的数据,是稀疏和有太多0的。在宏基因组计数数据中,特定基因的大幅变化和过度分散经常发生,影响不同丰度的基因。由于各种因素,过多的0在宏基因组数据中也经常出现,比如,基因的丰度由于生物医学的技术限制不能检测到。样本的0也可能由于细菌群落间大的多样性而发生。为了适应微生物组数据的这两个特征,我们通常使用(negative binamial and zero flated)负二项零扁平模型
2020-11-19 21:19:20 2624
原创 R语言宏基因组学统计分析学习笔记(第三章-1)
微生物数据统计分析简介3.1 人类微生物研究的主题和假设两大主题,分别是:1)微生物特征和基因的、生物的、临床的和实验条件;2)与微生物组成可能相关的生物和环境因子目标:理解宿主遗传——环境因子的机制,在调节微生物组成和疾病方面,可能对治疗策略有所帮助。环境、微生物和宿主的关系是动态和复杂的,有3个假说:1)微生物失衡与健康或者疾病是否相关,如IBD假说也可以是微生物和生物因子,比如微生态改变与小肠上皮细胞VDR(维生素D受体)相关2)微生物-环境或者生物或健康/疾病时环境干预影响微生物的组
2020-11-17 21:11:35 2426
原创 宏基因组笔记(第二章)
一直以来,看到这本书《Statistical Analysis of Microbiome Data with R》活跃在朋友圈和公众号,既然口碑这么好,当然有必要学习下啦!分享记录一下书中我所认为重要的点。下面是这本书的第二章:什么是微生物组数据2.1 测序16S或者宏基因组测序后,数据使用Qiime或Mothur,比对或者denovo聚类生成OTU表格,注释获得物种分类表,以及相对丰度。2.2 数据结构是结构化的进化树,系统发生关系和进化。样本(行)-特征(列)偶发表,特征可以是OTU、基因
2020-10-25 17:06:50 1083
原创 HLAscan的HLA分型探索
发现这个软件之前的官网已经打不开,但是在github上仍然在更新,https://github.com/SyntekabioTools/HLAscan或许是换了工作?最近一次更新是2019.12.4,还是比较新的。发现wegene的NGS HLA分型报告是用的这个软件的参考文献,估计还是权威些的。软件使用方法也有了一些变化,之前只是一个脚本,现在直接编译成了一个独立的可执行文件,运行效率应该也有很大的提高。也省去安装的繁琐。AMD YES的4700U也能跑得动,不错!安装和运行# 下载软件wget
2020-10-21 12:54:30 989
原创 如何快速查询人基因组的LD连锁不平衡信息
最近做PRS评分,需要用到连锁不平衡信息,来进行位点筛选,找了好几个工具用于计算连锁不平衡,也发现了个好用的网页工具来进行查询,在这里和大家分享一下!地址在这,阅读原文也是这个,后面的操作都在这个网页进行的。由于这个网站用到了谷歌的一些组件,可能需要科学上网才能访问。什么,你不会,我有个凑活着用的方式,要不要试试,回复"setup",给你个小工具。LDlink首页先来欣赏下首页,美国NIH的癌症研究所的工具,还是比较权威的,数据来自千人基因组计划,可以分人种进行信息查询。可以看到有好几个工具可用,我
2020-10-13 10:36:53 5010 10
原创 HLA-LA进行HLA分型
1.软件安装和数据库准备继续conda,解决软件安装难题,也不需要挑战有些门槛的docker。# 安装 conda install hla-la # 数据库下载 cd ~/miniconda3/opt/hla-la/ mkdir graphs wget http://www.well.ox.ac.uk/downloads/PRG_MHC_GRCh38_withIMGT.tar.gztar -xvzf PRG_MHC_GRCh38_withIMGT.tar.gz# 数据库索引,这步要耗30
2020-10-13 08:44:56 1218 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人