笔缀杂谈
基因学苑
这个作者很懒,什么都没留下…
展开
-
python数据分析专题 (15):修改数据
很多时候,读入的数据并不能满足数据分析的需求,还需要对原数据进行处理,例如修改行列名字,修改数字,增加行列,批量修改数据等,例如将1全部替换为True,将0全部替换为False。修改表格数据修改数据的操作逻辑是是首先定位到数据,也就是利用索引,比如修改数据x第3行第5列的值,x.iloc[2,4],接下来重新赋值即可。所以,正确索引非常重要。data = pd.DataFrame({‘a’:[1,2,3],‘b’:[4,5,6],‘c’:[7,8,9]})datadata[‘d’]=[10,11,原创 2020-08-24 15:23:20 · 786 阅读 · 0 评论 -
吹了十几年的生物云计算,为何还在原地踏步?
十年前Cloud Computing火爆的时候,大家自然而然开始了想站在生物云计算的风口,可是没起风,猪肉去涨价了。生物云计算究竟是遗失的美好,还是雾里看花,水中望月;究竟是出身未捷身先死,还是怀才不遇,壮志未酬。生物云计算,看上去很美首先,我们得定义什么是生物云计算?按照字面定义,目的就是做生物的计算,主要包括各种生物序列的分析工作,加上云,就是能够在云端处理。其实和其他云计算也没太大的不同。这是非常好的想法,后面在结合上5G技术,就更好了。比如在野外利用纳米孔测序仪进行测序,数据实时传输到云端开始处原创 2020-08-24 15:21:49 · 436 阅读 · 0 评论 -
拿走不谢,38款测序仪性能指标统计
经常有人问我不同测序仪有哪些差别,我并不是做科技评测的,没法做开箱评测,主要是我也买不起,那么这里有一份材料可供查询。到底哪一款测速仪好呢,其实很难一句话说明,小孩子才直接说好坏,大人只能是适合自己的才是最好的。另外,你能不能利用数据发文章并不在于测序仪,关键是看你处理水平的问题。年关将至,祝大家平平安安。38款测序仪设备横向比较这里列出了38款设备多项性能指标,包括运行时间,测序读长,测序价格,设备价格等,非常全面,可以作为非常好的参考。注意事项:1、首先,这只是一个参考指标,其中的一些数据会随着原创 2020-08-23 19:55:07 · 857 阅读 · 0 评论 -
16款测序平台性能大PK!基于人类和细菌基因组DNA水平的多平台测序数据研究成果发布
DNA是生命遗传信息的载体,获取DNA序列信息对于基础科研和临床诊断都至关重要。自1977年第一代测序技术问世以来,经过四十余年的探索,DNA测序技术取得了重大进展。随着对测序成本降低的需求,以高通量为特点的第二代测序技术(NGS)应运而生并逐步成熟,以单分子测序为特点的第三代测序技术也已经诞生。DNA大规模平行测序已然成为基因组学研究和临床诊断的重要工具。目前,能够完成DNA大规模平行测序的平台,除了基于边合成边测序原理的Illumina平台和基于半导体测序法的Thermo Fisher平台外,作为新兴原创 2020-08-23 19:53:15 · 684 阅读 · 0 评论 -
Conda solving environment一晚上还不能完成有解吗?
本文转载至“生信宝典”微信公众号,已获授权。生物信息学习的正确姿势NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集)等内容。Conda为什么越.原创 2020-08-22 15:34:38 · 846 阅读 · 0 评论 -
如何使用密钥远程连接服务器
通常我们都利用SSH通过IP地址,账户,密码,端口号四个条件就可以远程登录服务器,一些软件可以自动保存账户密码非常的方便。但是一台设备放到互联网上不可避免的会受到各种攻击。最常见的就是流量攻击,从全球各个地方尝试用各种账户SSH远程登录。常用的账户就是root,admin,test这些,如果密码设置的比较简单,有可能就被暴力破解了,是非常危险的,所以,Linux系统下密码一定要复杂一些。暴力登录如果查看/var/log/secure文件,这里是ssh的日志文件,可以看到有各种IP尝试登录,当然,大部分.原创 2020-08-22 15:32:17 · 2196 阅读 · 0 评论 -
生物信息就该这么学(5):其实就是比对那点事儿
今天继续我们的生物信息就该这么学内容,其实生物信息分析每天做的工作就是各种比对。序列比对可以说是整个生物信息的核心,因为你会发现几乎每个生物信息分析过程都需要用到序列比对。判断两个基因或两段基因组片段是否相似是序列分析的基本工作。从序列数据库搜索,序列拼接到基因蛋白质功能注释,以及进化树构建等,都依赖于分子序列相似性的比较,也就是序列比对。测序得到一段序列,判断它是否属于新冠病毒,需要与已知病毒序列进行比对。你可以会反问,基因组拼接,变异检测也用到序列比对了吗,答案是肯定的。同源与相似序列比对的核心作.原创 2020-08-21 16:20:33 · 1101 阅读 · 0 评论 -
明明办了100M宽带,下载速度为何不到10M/s?
明明宽带带宽是100M/s,下载速度为何不到10M /s。我相信很多人都会有这样的疑虑,包括笔者以前也有这样的疑惑,是不是被运营商忽悠了,其实不是,这就要涉及到计算机一些基础的概念了。字节与字符其实宽带大小给出的是位数,带宽的单位是Mbps,也就是Mbit/s,下载速度单位是MByte。而我们关注的文件大小。1Byte=8bit,Byte为数据量常用单位,也就是二进制的0或者1表示的内容。而计算机中用8个0或1表示1个字节。如果是使用ASCII码,一个英文字母(不分大小写)占一个字节的空间。一个二进.原创 2020-08-21 16:18:54 · 2896 阅读 · 0 评论 -
为什么宏基因组数据分析比较难?
生物数据分析包括很多种类,比如人基因组,植物,动物,微生物,还有RNA,单细胞RNA等等,其中宏基因组数据分析是比较难的部分,为什么呢?这里总结了以下10点原因。样品采集由于微生物在地球上广泛的覆盖,因此,宏基因组样品来源非常广泛,从南北极冰川,到海底淤泥,从喜马拉雅山山脉,到亚马逊丛林,覆盖高山,大河,冰川,土壤,海洋,大气,火山,牛胃,包括人体各个部分都可以进行宏基因组研究,采集到合适的样品,才能开展创新性的研究。样品提取由于微生物宏基因组样品种类繁多,可以来自人肠道,山川,河流,土壤,粪便等.原创 2020-08-21 16:16:17 · 1384 阅读 · 0 评论 -
图形化生物软件专题(2):IGV
耳听为虚,眼见为实,很多时候我们需要用眼睛来亲自看一下发生了突变的SV。尤其是这些突变非常关键的时候。通过可视化进一步确认SV的可靠性是非常有必要的。IGV就是这样一款非常有用的基因组可视化工具。tablet只能用来看测序数据,而IGV除了能够查看每个位点的测序覆盖情况,同时也可以查看位点的突变情况,功能更加强大。IGVIntegrative Genomics Viewer 交互式基因组浏览器,它是一种高性能的可视化工具,用来交互式地探索大型综合基因组数据。它支持各种数据类型,包括array-base.原创 2020-06-23 11:15:23 · 1578 阅读 · 0 评论 -
你的R语言学习之路,可以从“此”开始
你是否从事科研工作,有很多数据需要处理,进行分组统计;是否曾羡慕别人文献中的p值,F值,t检验,方差分析这些内容,是否不知道那些复杂的公式都是如何计算出来的,是否喜欢里面某一张图表,想应用在自己的数据上?是否自学R遇到很多错误,是否看起来完全一样的代码就是运行不出来,是否感觉每一条代码都报错,是否觉得学习R太难了……这个时候,你需要系统的来学习R了。本课程将从零开始系统的介绍R语言的使用,通过14天的学习,循序渐进,熟练掌握R语言的使用,之后处理数据游刃有余,让您的科学研究如虎添翼。课程特色1、十年R.原创 2020-06-23 11:14:16 · 986 阅读 · 0 评论 -
win10的一些骚操作
windows10是一款非常优秀的操作系统,尽管有自动更新令人非常尴尬的时刻,但笔者依然非常喜欢使用windows10。这么说好像不够政治正确,毕竟macos用户嫌windows丑陋,惯性鄙视,Linux用户总批评windows系统安全性问题,但这依然没能主动win 10是市场占有率最大的产品。今天我们来介绍一些windows10中几个好用的功能。上帝模式上帝模式是Windows Vista保留下来的一个功能,相当于全能的控制面板,界面中包含着所有的Windows系统设置。在这个界面就能实现整个系统的.原创 2020-06-23 11:13:03 · 615 阅读 · 0 评论 -
在 Linux 和 Windows 下源码安装 Perl
编者荐语:目前python已经火遍微信朋友圈广告以及公众号底部广告,各种洗脑广告大有追赶360借条之势,不过perl依然有广泛的基础,有很多生物软件需要依赖perl语言,很多人嘲笑写perl的落伍了,其实我们不仅会perl,还精通python,R……以下文章来源于生信科技爱好者 ,作者沈维燕Perl 是一种功能丰富的计算机程序语言,运行在超过 100 种计算机平台上,适用广泛,从大型机到便携设备,从快速原型创建到大规模可扩展开发。在生物信息分析领域,Perl 主要是做数据预处理、文本处理和格式转换、.原创 2020-06-23 11:05:26 · 773 阅读 · 0 评论 -
效率神奇,这是最好用的电子笔记工具
好记性不如烂笔头,我们每天都有面对很多有用的信息,如何将这些重要信息合理的进行管理呢,并且能够随时随地进行查找,答案就是电子笔记。电子笔记的工具有很多,比如比较有名的evernote,有道云笔记等,其实win10系统自带OneNote才是真正强大的电子笔记工具。你可以将文字,图片,声音,表格等等内容进行记录,微信上看到一篇好文章,朋友圈看到一个有趣的话,路边看到美丽的风景,网页上一篇重要文章,这一切内容,都可以使用微软的OneNote笔记,将你的知识安排的井井有条,明明白白,清清楚楚,清清爽爽,干干净净。.原创 2020-05-31 16:37:19 · 1037 阅读 · 0 评论 -
我坚决不会将图片表格重新输入一遍
在生活中会遇到以下场景:给定一张纸质版表格,或者图片表格,如何将其数字化,能够进行编辑。该如何进行操作呢?像打字员一样一个个重新打印一遍?使用OCR识别图中文字,在一点点复制到表格中,这些方法都可以。但如果表格有成千上万行怎么办呢,难道还一个个的打印吗?这次内容我们教你如何1分钟内解决此事。机器学习识别表格前面我们介绍了如何识别图片中的文字,然后将其转换为文本,可以进行编辑。识别表格同样的原理。其实就是应用了机器学习中的图片识别。当然有部分人tree new bee为人工智能,其实也没这么玄乎。原理并.原创 2020-05-31 16:35:59 · 442 阅读 · 0 评论 -
世界是平的,都是骗人的
大约在十五年前,那时候我还在上高中,当时互联网还没有像现在这么普及,至少我还没有接入互联网,你无法想象目前微信,微博,抖音,快手是什么。当时有一个“地球村”的概念很流行,大意就是通过互联网,整个地球上的人就想生活在同一个村庄中一样,人与人之间可以很方便的进行交流,以前至少还需要通过六度空间,有了互联网,六度空间都不需要了,你可以直接在twitter上怼川普了。当时还有一本《世界是平的》的书比较畅销,主要是介绍全球化的,当然这本书写的很好,但今天看来也并不是所有观点都是正确的。世界是评的,都是骗人的在今.原创 2020-05-30 11:07:49 · 410 阅读 · 0 评论 -
书到用时方恨少,试试运气好不好
很多人经常问有没有一些生物信息的图书推荐,由于生物信息发展实在太快了,从图书规划到定稿,再到出版可能一年时间就过去了,这一年时间技术已经发生了很大的变化,所以文献和公众号是比较及时的信息。也有很多测序公司将自己多年分析的经验以及行业内从业者阅读的文献分享出来,集结成册,出版了一些图书,这些图书一个显著特点就是特别的及时,到位。我们一直以来的培训合作伙伴联川生物已经出了四本工具书,于是我们联合举办了一个抽奖活动,希望给大家送一些福利,如果没中奖也可以自行购买。对于购买书籍,我从来都不犹豫,别人数十年的积累经.原创 2020-05-30 11:01:50 · 458 阅读 · 0 评论 -
吹了十几年的生物云计算,为何还在原地踏步?
十年前Cloud Computing火爆的时候,大家自然而然开始了想站在生物云计算的风口,可是没起风,猪肉去涨价了。生物云计算究竟是遗失的美好,还是雾里看花,水中望月;究竟是出身未捷身先死,还是怀才不遇,壮志未酬。生物云计算,看上去很美首先,我们得定义什么是生物云计算?按照字面定义,目的就是做生物的计算,主要包括各种生物序列的分析工作,加上云,就是能够在云端处理。其实和其他云计算也没太大的不同。这是非常好的想法,后面在结合上5G技术,就更好了。比如在野外利用纳米孔测序仪进行测序,数据实时传输到云端开始.原创 2020-05-24 19:56:51 · 590 阅读 · 0 评论 -
写给想学习R语言的人一些建议
在B站里有很多人看我的《R语言入门与数据分析》跟着学习R,但是里面有不少三观有很大问题的人,还及其没有逻辑性。看着免费的视频,还各种叽叽歪歪;自己基础不好,学不会就怨天尤人;不愿付出辛苦努力,却一直想坐享其成;敏感自卑,我开个玩笑就觉得被冒犯;自己渺小无知,却不停嘲笑up英语口音问题,我只觉得他们可怜,可悲,可笑。当然,我肯定不会去和他们去做各种无谓争辩,因为,千万别去叫醒熟睡的人。这里给出那些认真学习R的人一些经验教训。1、遇到字符串的地方一定要加引号,要能区分哪些是数字,字符串,逻辑值以及变量名;.原创 2020-05-24 19:51:55 · 5119 阅读 · 3 评论 -
使用R分析数据,内存不够怎么办?
使用R语言分析生物数据,比如计算WGCNA,计算单细胞表达矩阵,个人电脑只有8G内存,无法完成计算怎么办,不用愁,我们我大家提供256G内存以上R云服务器,上传数据,直接分析。在线R语言环境我们的服务器中提供了Rstuido服务器版本,可通过浏览器,在任何联网的地方远程使用R语言。例如直接使用浏览器访问512.tongyuangene.com:8787即可打开登录界面。输入购买的账户密码...原创 2020-04-25 14:22:55 · 7722 阅读 · 0 评论 -
解决Rstudio不支持win系统中文用户名问题
尽管我已经在多个地方介绍过如何解决Rstudio不支持中文用户名的问题,但是依然还是有很多人问,不得不在发一次。当前的Rstudio对中文支持不太好,如果windows系统用户名为中文,安装完成之后无法正常使用,这是因为Rstudio要读取R所在的目录,并且需要访问的文档下面很多临时目录,如果是中文编码的,Rstudio无法识别,导致使用错误,目前并没有好的解决方法,只能修改用户名为英文。方法...原创 2020-04-25 14:15:20 · 3621 阅读 · 0 评论 -
mac电脑能做生物信息吗?
经常有人问我mac电脑是否可以用来做生物信息,其实是完全没问题的,主流的软件都支持,有些软件甚至质量更高,比windows版本的好用,不过,我依然喜欢用windows了,为什么呢,习惯了。我们平时使用各种操作系统来工作,无论是macos,windows,linux或者手机的iOS,Android,其实操作系统能做的事情都差不多,主要是使用上面的一些软件,只要是有对应的软件就行了。其实计算机操作...原创 2020-04-25 14:14:05 · 2838 阅读 · 0 评论 -
如何使用微信搜索学习生物信息
目前微信公众号是很多内容分发的第一梯队平台,里面包含很多有用的信息,例如很多生物信息相关的技术文档,如何搜索出其中对自己有用的内容呢?这里介绍三种方法。1 微信搜索打开微信,找到发现选项卡,也就是朋友圈所在的地方,找到“搜一搜”,输入关键字即可搜索到内容,如果在自己的微信中没有搜一搜,可以点击“我”->设置->发现页管理,添加搜一搜。2 公众号内搜索如果想看我们往期内容,可以...原创 2020-04-25 14:11:03 · 353 阅读 · 0 评论 -
这是Bilibili排名第一的R语言教程
目前数据分析领域,R语言扮演了越来越重要的作用,自从去年7月初,我将《R语言入门与数据分析》的课程上传到B站,然后就一直默默的放着,没想到目前播放量已经突破10万+,收藏超过1万多人,这是我万万没想到的,毕竟,我的主业是生物信息。搜索排名第一目前这个时间点,如果你在哔哩哔哩(俗称b站)上搜索“R语言”关键字,搜索的第一结果就是我们这套《R语言入门与数据分析》的课程 ,这套课程是我在2017年...原创 2020-04-25 14:08:03 · 3242 阅读 · 0 评论 -
分享|38款测序仪性能指标统计
经常有人问我不同测序仪有哪些差别,我并不是做科技评测的,没法做开箱评测,主要是我也买不起,那么这里有一份材料可供查询。到底哪一款测速仪好呢,其实很难一句话说明,小孩子才直接说好坏,大人只能是适合自己的才是最好的。另外,你能不能利用数据发文章并不在于测序仪,关键是看你处理水平的问题。年关将至,祝大家平平安安。这是我们的第455次推送!38款测序仪设备横向比较这里列出了38款设备多项性能指标,包...原创 2020-02-04 21:22:29 · 604 阅读 · 0 评论 -
10部有关传染病的电影
春节将至,本来是万家灯火,全家团圆的的日子,今年的传染性新型冠状病毒给我们的传统佳节蒙上了一层阴影。作为一名微生物科班出身的人,也是无能为力。纵观整个人类历史,一直都在于传染性疾病做斗争,一段只有几千个ATCG的病毒,就会带来重大的传染性疾病,这里推荐几部很好的有关传染病的灾难片,是关于传染病很好的科普电影。希望大家照顾好自己,照顾好家人,尽量少外出,有一些身体不适及时就医,众志成城,我们一定能够...原创 2020-02-04 21:16:50 · 9364 阅读 · 0 评论 -
抗击新型肺炎病毒,基因行业在行动
截止到目前,新型肺炎冠状病毒疫情还没有停止,全国人民正团结一心,众志成城开始进行抗击新型肺炎病毒的攻坚战。作为基因行业从业者,我们更应该义不容辞承担责任。从2019年年底开始,行业内各大微信群便开始专业讨论相关话题,目前每天都在相互协调各种资源。疫情爆发以来,很多行业公司第一时间开展行动,提供力所能及的帮助,下面我搜集了近来一些企业公众号发出的内容,当然,在此时此刻,记录这些内容并不是为了歌功颂德...原创 2020-02-04 21:15:14 · 1784 阅读 · 0 评论