自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

XIUXIU179的博客

执剑走天涯

  • 博客(82)
  • 收藏
  • 关注

原创 如何把多个CSV文件的数据变成一个EXCEL表格

简易合并文件

2022-09-08 23:44:52 2771 1

原创 windows系统下怎么将fastq格式文件转换为fasta格式

作为编程小白,首先当然是去找别人的代码啦。我们可以看到无非就几种,一个是用linux,另外就是用python。我试了几种,首先是网上写的python的,结果就是代码没有出错但就是没有结果~如果有需要就拿去吧,也不知道你们的结果是不是出的来。因此我就换了另一种,用linux命令。但是我是windows系统和linux双系统。linux系统其实我还不太熟悉,所以我就在windows系统下装了一个ubuntu,然后在里面写的代码实现的。我是windows10系统直接在Microsoft商店里面就可

2020-11-26 14:09:28 4354

原创 在Windows系统下下载biopython

BioPython 是一个用来处理序列和生物信息的python包,里面包含了很多的工具,可以用来直接读取fasta格式。windows 系统下使用pip方式:pip install biopython但是我电脑输入此命令行后并没有成功安装,有一些报错出现,因此我们得一个个解决报错才能成功下载。我们可以看到电脑里面并没有“wheel”这个包,因此我们安装此包后再此尝试。发现并没有报错,只是有警告,要我更新版本,所以不管,继续下载。(╯▽╰)老老实实的按它要求跟新吧,结

2020-11-25 11:46:57 869

原创 fasta与fastaq的区别以及格式转换

1.1)测序质量值 首先在了解fastq,fasta之前,了解一下什么是质量值。Phred 功能是处理测序仪直接生成的色谱图,给出相应的碱基和质量值。不同的测序仪会给出不同的色谱文件,Phred 能够识别三种格式的色谱文件,SCF, ABI 和预先处理的 ESD 格式。 碱基的测序质量值 Q 和此碱基出错的概率 Pe 相关。公式:Q = -10 log10( Pe )。phred软件在对reads进行base calling的时候会给出每一个碱基的质量值,这个质量值的计算与测序预期错误率相...

2020-11-24 16:34:36 12209

原创 NCBI数据格式

*.asn = ASN.1 (Abstract Syntax Notation 1) file NCBI的一种特定格式,包括完整的注释信息,可以用如sequin等软件打开;*.faa = FASTA Amino Acid file 全部蛋白序列文件;*.ffn = FASTA nucleotide coding regions file 全部核酸序列文件;*.fna = FASTA Nucleic Acid file 完整的基因组序列文件(一条序列);*.gbk = GenBank flat f.

2020-11-04 14:18:30 1173

原创 R语言环境下Bioconductor安装2020-10-31

Using Bioconductor现在最新的Bioconductor的版本是3.12;用R旧版本的需要去更新;如果已经安装了最新版本的R并且已经想更新最新版的Bioconductor,可以用下面的代码。if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")BiocManager::install(version = "3.12")用BiocManager::insta

2020-10-31 16:08:23 3410

原创 GEO数据库中单细胞测序数据下载

首先GEO数据库是收集基因表达的数据库 一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号。 用户提供的原始数据有3种:Platform,Sample和Series。GEO数据库整理后的数据分为:数据集(datasets)和表达谱(profiles)。GEO数据库具体存放四类数据:GDS、GSE、GSM、和GPL。GDS号(GDSxxx)对应的一个同一平台的数据...

2020-10-30 20:08:03 21772 5

转载 从六度分隔到无尺度网络

1. 随机网络 现在我们来思考一个关于SNS形成的问题:我的朋友是从那里来的? 大约的故事是这样的: 从前,有个叫 mxwu的小孩出生在了中国某个二线城市的小院子里。他不知道为什么上帝没有把他安排在美国、英国、法国、甚至是非洲某个不知名的国家,而偏偏选中了中国;他也不知道为什么上帝没有选择北京、上海、深圳而又把地点选择到了这个二线城市。这种感觉就好像上帝在扔筛子:1美国,2英国,3法...

2020-04-01 03:04:18 1050

原创 python下载及基础知识

一、运行python1.下载安装好python后,安装目录里分别有IDLE、Python 3.6 Manuals(64-bit)、Python3.6(64-bit)和Python3.6 Module docs。 IDLE是python自带的集成开发环境,可以运行调试代码,编写代码并保存等等,还有pycharm和jupyter是很好用的python开发环境,其他的还有subl...

2019-08-01 10:33:16 652

原创 Cytoscape在基础功能和参数介绍

一. Cytoscape的安装 首先要安装Java程序,才能够在Linux, Windows, and Mac OS X系统上运行。虽然没有职位上的支持关系,其它的UNIX平台例如Solaris or FreeBSD需要高于Java 5以上的版本。二.界面的简单介绍这些功能在工具栏上都有形象的展示~三、一般流程1 、打开 Cytoscape(v...

2019-08-01 00:02:37 2550

转载 Python数据爬虫学习笔记:爬取豆瓣阅读的出版社名称数据

环境准备:1.python 3.0+2.豆瓣出版社网址 https://read.douban.com/provider/all1.打开浏览器,输入网址,右击网页,查看网页源码2.看上图我们发现许多出版社名称,接下来我们查找一个出版社名称,例如重庆大学观察下图我们发现它们都在一个div标签内,且class=”name” ,所以,我们开始编写代码3.代码或者4....

2019-07-20 16:38:57 917 3

转载 分析与可视化ROC——plotROC、pROC

ROC曲线的本质以及如何计算和绘制ROC曲线。注意,我这里谈到的ROC并未曾涉及机器学习模型的拟合与预测,而是指存在一组真实的连续型数值数据设定阈值的不同对响应变量(二分类)的影响(真阳性率、假阳性率)。这一篇文章我们学习两个跟ROC相关的R包:plotROC - Generate ROC Curve Charts for Print and Interactive Use pROC -...

2019-01-11 08:10:28 3069 1

转载 R语言之grep函数和正则通配符查询

在R语言的道路上又学到了一个新知识,记下来一起分享!首先,grep函数可以像数据库查询一样对向量中的具有特定条件的元素进行查询!其次,介绍几种R语言中的正则通配符:(1)“^”匹配一个字符串的开始,比如sub("^a","",c("abcd","dcba")),表示将开头为a的字符串。如果要将开头的一个字符串替换,简单地写成“^ab”就行。> Num <- c(310...

2018-10-18 13:54:29 2794

转载 有趣的一行 Python 代码

https://mp.weixin.qq.com/s/o9rm4tKsJeEWyqQDgVEQiQhttps://mp.weixin.qq.com/s/G5F_GaUGI0w-kugOZX145g Python 这门语言非常的有趣,不仅可以做高大上的人工智能、大数据、机器学习。还可以用来做 Web、爬虫。还有其它很多的应用。今天我就给大家展示下一行 Python 代码都可以做些什么。...

2018-10-08 16:04:17 1663

转载 R中的普通文本处理-汇总

介绍:1. 文本文件的读写2. 字符统计和字符翻译3. 字符串连接4. 字符串拆分5. 字符串查询6. 字符串替换7. 字符串提取 说明: 普通文本文件不同于我们平时接触到的表格式文本文件,这里的文本文件是纯文本文件,里面包含的大部分都是字符串;而表格式文本文件大多是行列比较整齐的数据文件,读取这一类的文件,需要用到read.table()或read.csv()之类的函数。 关于正则表达式的介...

2018-07-10 12:41:49 2263

原创 大数据简介

Evolution in Big Data technologies, help businesses to:Enhance and streamline existing databasesAdd insight to existing opportunitiesExplore and exploit new opportunitiesProvide faster access to informationAllow storage of large volumes of inform

2018-07-06 14:39:38 1404

原创 支持向量机

支持向量机(Support Vector Machine, SVM)是统计机器学习和数据挖掘中常用的一种分类模型。从逻辑回归到线性分类与非线性分类> install.packages("e1071", dep = TRUE, type = "source") # 正确的安装软件包> iris[1:5,] # datasets软件包中的iris数据集 Sepal.Length ...

2018-07-05 11:23:40 283

原创 数据结构基础知识

列表列表的创建列表是“递归型”的向量,即列表中的元素是可以再分的。以超市货品数据为例,可以用列表A存储每一种货物,列表A中的每一种元素可被视为一种货物。对于每一种货物,可以用列表B存储其各方面的属性,比如名称,价格,生产日期等信息。> goods <- list(name = "Cookie", price = 4, outdate = F)> goods$name[1]...

2018-07-04 21:22:33 476

原创 R语言数据的输入和输出

数据的载入      R本身已经提供了超过50个数据集,而在众多功能包中,默认的数据集被存放在datasets程序包中,通过函数data()k可以查看系统提供所有的数据包,同时可以通过函数library()加载程序包中的数据。矩阵型数据最常用的读取方式是read.table()具体的调用格式是()read.table(file, header = FALSE, sep = "", quote = ...

2018-07-03 16:35:41 17721

原创 R语言箱线图小结~~

何为箱线图~通过绘制一组数据的“最大值,最小值,中位数,上四分位数及下四分位”这五个指标来显示该数据的分散情况。作用是可以识别数据中的异常值,看看数据的偏态分布。1:以数据集mtcars中的mpg数据为例> boxplot(mpg, main = "Box plot", ylab = "Miles per Gallon")boxplot()函数可以画出箱线图,具体的各个值则可以通过boxpo...

2018-06-25 10:53:00 34993

原创 实用统计图形

今天画的图都是简单图形,大部分EXCEL就能实现,但是当做复习记录,还是再来重述一遍。1:饼状图(用于描述量,频率或者百分比之间的相对关系)> countries <- c("Brazil", "Russia", "India", "China", "South Africa")> GDP <- c(23920, 20790, 18618, 94906

2018-06-25 09:31:10 425

转载 R语言中do.call()的用法

简单参数设置就能搞定的事情,是不会用到do.call的。在运用R的过程中总会碰到这样一类函数,它们接受的参数数量可以是任意的,该函数会处理这些参数,并返回处理结果。最简单的例子就是data.frame。比如:> x1 = 1:10> x2 = 11:20> x3 = 21:30> data.frame(x1,x2,x3) x1 x2 x31 1 11 21...

2018-06-20 21:13:41 7684

原创 R语言矩阵的创建、使用和筛选

矩阵是按列储存的,也是说先储存第一列,再按顺序储存第二列,并依此类推。(当给定的行数和列数之积大于给定的向量中元素的个数时,系统会采取循环补齐方式来对矩阵进行填充),向量的赋值可以表示删除某行或者某个值。> matrix(c(1,2,3,4,5,6),nrow = 2, ncol = 3) [,1] [,2] [,3][1,] 1 3 5[2,] 2 ...

2018-06-20 21:01:02 9183

原创 编写R语言程序

1:条件结构(根据判断条件是否成立选择执行A操作或者B操作)> x <- 1:10> y <- ifelse(x%%2 == 0, 0, 1)> y [1] 1 0 1 0 1 0 1 0 1 0ifelse(test, yes, no)ifelse()是一个函数test是一个布尔值向量,当其为真返回yes的值,反之返回no的值。> y <- if ...

2018-06-20 21:00:28 3034

转载 R语言中的循环函数(Grouping Function)

深蓝居R语言中有几个常用的函数,可以按组对数据进行处理,apply, lapply, sapply, tapply, mapply,等。这几个函数功能有些类似,下面介绍下这几个函数的用法。 Apply 这是对一个Matrix或者Array进行某个维度的运算。其格式是: Apply(数据,维度Index,运算函数,函数的参数) 对于Matrix来说,其维度值为2,第二个参数维度Index中,1...

2018-06-20 20:59:30 2128

转载 R语言中提供了四类有关统计分布的函数

R语言中提供了四类有关统计分布的函数(密度函数,累计分布函数,分位函数,随机数函数)。分别在代表该分布的R函数前加上相应前缀获得(d,p,q,r)。如:1)正态分布的函数是norm,命令dnorm(0)就可以获得正态分布的密度函数在0处的值(0.3989)(默认为标准正态分布)。2)同理,pnorm(0)是0.5就是正态分布的累计密度函数在0处的值。3)而qnorm(0.5)则得到的是0,即标准正...

2018-06-20 11:40:34 1128

原创 R语言编写代码的方式

大部分的代码都是基于控制台的交互式操作,但是对于那些要重复好多次的程序片段,将其保存为一段R程序文件是一个不错的选择。通常,R程序以ASCII格式保存,扩展名为“.R”。可以在类似记事本、Sumblime Text等文本编辑器中编辑R语言的代码,然后source()函数将代码读入R。> source("C:/Users/pc/Desktop/func.R")> gcd(12,20)...

2018-06-20 10:57:19 7924

原创 编写R程序

# 循环结构就是满足某个条件之前反复执行一个语句序列> for (i in 1:5){+ cat(i, " ")+ }1 2 3 4 5 > while (i <= 5){+ cat(i, " ")+ i = i + 1+ }5 > repeat{+ cat(i, " ")+ i <- i + 1+ if ...

2018-06-20 10:21:01 1075

转载 R语言函数总结

R语言与数据挖掘:公式;数据;方法R语言特征对大小写敏感通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母)。不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字。基本命令要么是表达式(expressions)要么就是 赋值(assignments)。命令可以被 (;)隔开,或者另起一行。基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(c...

2018-06-20 10:15:44 22724 2

原创 如何解决“您的管理员已关闭最近文档列表“”

1:以Word为例简单介绍一下2:首先打开运行,或直接按“win+R”输入:gpedit.msc  回车, 打开本地组策略编辑器。3:选择   用户配置-管理模板-"开始"和任务栏  菜单,双击打开。4:找到“不要保留最近打开文档的记录”选项,点击左侧策划设置。5:选择禁用,点击确定。6:打开Word,选项-高级-显示。根据自己的习惯设置,就Ok啦~...

2018-06-13 10:45:10 7499 2

原创 如何查询期刊名称的英文缩写

 方法一:1. 在 Web of Science 网站 (网址为:http://apps.webofknowledge.com/)输入所要查询期刊的英文全称,如:2. 选择“出版物名称”选项,点击“检索”。选择该期刊中的任意一篇文章,并进入。3. 找到“期刊信息”一栏,如:4. 进入“期刊信息”,在其右侧,可以看到期刊名称简称,如:方法二:1:在NCBI中直接找到...

2018-06-06 19:30:57 24435 1

原创 Endnote向word中插入参考文献总结

1234567分步阅读Endnote不但可以帮助我们管理参考文献,在我们写论文的时候,Endnote还可以智能的帮我们插入需要的参考文献下面具体介绍一下用Endnote向word中插入参考文献的四种方法工具/原料endnote(以X7版为例)方法一1打开Endnote软件和需要插入参考文献的word文档。在Endnote中找到你需要插入的参考文献,单击文献名选中,此时选中的文献会出现蓝色底纹2在w...

2018-06-04 19:59:03 61550 1

原创 颜色的小趣事

颜色蓝色(blue)光或颜料(作为颜料色中,使用青色代替蓝色)的三原色之一,这种颜色有很多种,有天蓝、湖蓝、宝蓝、粉蓝、冰蓝、碧蓝等等。欧洲为对国家之忠诚象征。天蓝色代表宁静、清新、自由,是很多人喜欢的颜色,天蓝色和粉红色一样,是安抚色,一看到就让人的心情感到放松;湖蓝色,海的颜色,代表忧郁、深邃、冷淡;宝蓝色即宝石蓝,最深也最亮的蓝色,也叫海军蓝,代表冷静、智慧等。红色(red) 光或颜料的三原...

2018-06-04 19:56:48 921

原创 论文中高分辨率的图像制作方法

1:将要使用的图片存成PDF格式2:打开inkscape软件对图片进行编辑和处理3:将处理好的图片导出为png格式,并将其在Gimp软件上进行格式化处理

2018-06-03 14:38:15 6297 1

原创 超星阅读器pdz文件转为xps文件或pdf文件说明

所需软件:1、XPS Viewer(Win7自带的有XPS Viewer软件,XP系统需要下载XPS Viewer软件);2、pdfFactory软件(pdfFactory 是一个无须 Acrobat 创建 Adobe PDF 文件的打印机驱动程序。pdfFactory 提供的创建 PDF 文件的方法比其他方法更方便和高效。)步骤:一、转换为XPS文件1、用超星阅读器打开你所要转换的文件。2、点击...

2018-05-24 16:21:42 10395 2

转载 利用Python处理Excel数据

CSTO 登录注册 利用Python处理Excel数据目录读取数据显示数据显示数据的行与列数查看数据格式dtpyes显示列名添加默认的列名显示数据后5行显示数据唯一值跳过文件的第i行不读取对缺失值进行识别数据清洗处理空值更改数据格式更改列名称删除重复值对列表内的值进行替换数据预处理对数据进行排序数据分组数据分列数据提取...

2018-05-04 15:11:13 788

原创 时间序列分析与挖掘

         时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。 时间序列构成要素:长期趋势,季节变动,循环变动,不规则变动长期趋势( T )现象在较长时期内受某种根本性因素作用而形成的总的变动趋势季节变动( S )现象在一年内随着季节的变化而发生的有规律的周期性变动循环变动( C )现象以若干年为周...

2018-05-02 21:11:24 2194

转载 python 读取Excel文件

#导包import xlrdfile= u'D:\\test\\学信网zh.xlsx'xlrd.open_workbook(file)们在解析Excel 表格时 ,主要利用的是一个类似二维数组的方式,一般的Excel表格,第一行一般是表头,,如果你的没有表头那就解析起来更加简单。我们以有表头的为例:#-*- coding=utf-8 -*-import xlrddef open_e...

2018-04-28 16:09:42 244

转载 Python使用filetype精确判断文件类型

filetype.pySmall and dependency free Python package to infer file type and MIME type checking the  magic numbers signature of a file or buffer.This is a Python port from filetype Go package. Works in ...

2018-04-27 17:20:56 6169

原创 离群点检测

1.单变量离群点检测> set.seed(3147)> x <- rnorm(100)> summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860 > boxplot.stats(x)$out[1] -3....

2018-04-27 14:38:11 2690

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除