自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 ProLaTherm使用方法(未写完)

学习使用prolatherm预测蛋白质稳定性,以期望获得稳定性更高的蛋白质。开源文件在github上,操作步骤参考readme文件,但由于github有时网络较慢,所以相关内容克隆在gitee中。

2024-03-08 19:28:57 322

原创 生信技能树linux学习笔记01

笨人准备复试,磨蹭了很久终于开始再次重学linux,真理:还是得多练,半年前会的现在都忘的差不多了(悲)。

2024-03-05 00:04:48 284

原创 GSEA实战分析(结直肠癌基因转录表达数据)

数据文件“COAD_normal_tumor.csv”中包含了结直肠癌基因转录表达数据(数值为比对得到的read counts),列为样本,行为基因,其中结直肠癌表达数据为TCGA开头的样本名,正常对照样本表达数据为GTEX开头的样本名。

2023-05-23 15:08:10 530

原创 TCGA数据库学习二:差异基因分析

在分析TCGA阿虎句酷里的RNA-seq数据之前,先了解TCGA样本的id名称。TCGA样本id中第14-15位代表分组信息,01-09是tumor(肿瘤),10-29是normal。

2023-03-31 21:40:16 3773 2

原创 TCGA数据库学习一:基本知识

参数默认为FALSE,下载GDC Data Portal(hg38)。这里小编的建议是,下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。并不是所有数据都可以下载。测序数据分为四层:level1、level2、level3、level4,其中level3和level4都是开放下载的,level1是最原始的数据,level2是做了进一步处理的,这些数据一般是不开放的,需要申请才能下载。但现在已经更新了,只有。

2023-03-27 10:39:24 4281

原创 GSEA笔记

GSEA:Gene Set Enrichment Analysis,基因富集分析。集:在以前的实验中发表的数据或表达谱上共表达的基因信息数据集合,通俗一点就是某一个通路(相关的所有基因的总和)。

2023-03-24 14:12:18 260

原创 数据挖掘:关联规则挖掘实操

课本习题:探究学生成绩和学生特征的关联规则。

2023-03-04 15:22:46 274

原创 RNA-Seq数据分析使用方法

质量问题通常来自测序本身或前面的文库制备。包括:可信度低的碱基序列特异性的偏差3’/5’位置偏差聚合酶链反应(PCR)假象未修剪的接头序列污染通过过滤、修剪、纠错或偏差订正被矫正。质量控制和预处理软件1FastQC输入文件可以是FASTQ(未压缩或压缩的)或SAM/BAM文件。生成html的质量报告,包括:读段的数目及质量编码可视化有关碱基质量和内容读取长度及k-mer内容有含糊不清的碱基 过度代表的序列和重复的信息1.2html结果文件解读左侧会有Summary可以

2023-03-03 19:14:32 1160 2

原创 数据库三:视图

select view 视图名(列名) as select 语句在定义视图时要么指定全部视图列,要么全部省略不写,不能只写视图的部分属性列。以下情况必须全部指明:select语句中的查询列不是单纯的属性名,而是函数或表达式等无列名的列多表连接时选出了几个同名列作为视图的字段需要在视图中为列选用新的更适合的列名定义视图的查询语句中通常不包含order by和distinct子句,这些语句可放在通过视图查询数据的语句中。

2023-03-02 17:59:39 506

原创 数据库二:数据操作语句

查询数据是数据库的最基本和最重要的语句之一,其功能是从数据库中检索满足条件的数据。查询的数据可以来自一张表,也可以来自多张表或者视图,查询的结果是由0行(没有满足条件的数据)或多行记录组成的一个一个记录集合,并允许选择一个或多个字段作为输出字段。所有查询的表都是学生表,课程表,学生选课表,来自数据库一:创建表。1.查询数据的基本结构select:指定输出的字段(必须)from:指定数据来源(必须)where:指定数据的选择条件group by:用于对检索到的记录进行分组having:用于指定组

2023-03-02 01:31:07 335

原创 数据库一:创建表

创建表的基本语法

2023-02-21 14:15:46 1022

原创 R语言时间和日期格式转化

其中日期data存储的是天;时间POSIXct存储的是秒,POSIXlt 打散,年月日不同。

2023-02-16 02:31:22 3260

原创 生信人的20个R语言习题

上学期在学校跟练了GEO数据挖掘,看了TCGA数据挖掘有关知识,还没来得及实操。假期摸鱼自学了一下数据挖掘—基于R语言的实践,一直没找找到书本配套实操文件,只能过一遍理论知识,现在跟做Jimmy大神的生信人的20个R语言习题。(notion上 还有很多知识可以跟着学)(和第一个一样详细)

2023-01-16 19:33:31 407

原创 数据挖掘二:数据整合

教材:数据挖掘基于R语言的实战。

2022-12-31 10:20:40 478

原创 数据挖掘一:数据挖掘与数据理解

数据挖掘是对大量数据进行探索和分析,以便发现有意义的模式和规则的过程。“有意义”针对的是具体需要用数据分析来回答和解决的问题。

2022-12-16 00:45:19 698

原创 生物信息软件综合实践学习笔记

学习资料是现代生物学研究基础,以下是一些学习记录。实验室安全等级划分实验动物福利与伦理概述实验动物:经人工培育、对其携带的微生物实行控制、遗传学背景明确或来源清楚,用于科学研究、教学、生物制品或药品鉴定及其他科学实验的动物。实验动物福利:是指人类保障实验动物健康和快乐生存权利的理念及其所提供的相应外部条件的总和。实验动物福利涵盖的因素:SCI介绍1.三大科技文献检索系统SCI:科学引文索引包括五种索引:引文索引专利引文索引来源索引单位/机构索引轮排主题索引ISTP:科技会议索引EI:工程索引

2022-12-04 02:56:49 615

原创 TCGA学习笔记一(生信技能树概述版)

重要数据外显子数据表达数据小RNA测序数据拷贝数芯片甲基化数据蛋白质组学数据临床信息癌症背景知识网页工具大全GDCcbioportal:按照paper来分类的UCSCFIREHOSEoncolncgepiatanric相关数据库GTExCCLE。

2022-12-01 23:16:56 1033

原创 GEO数据库学习四(差异分析 可视化 GSEA)

定义:在某一特定基因子集中,多个基因共同参与的pathway通路,与标准背景相比,是否比例升高、具有统计显著性。,其中N:所有gene总数n:N中差异表达gene的总数M:N中属于某个GO term的gene个数k: n中属于某个GO term的gene个数p:表示差异表达gene富集到这个GO term上的可信程度当p

2022-11-29 16:37:20 3469 2

原创 常用数据库ID

RefSeq — NCBI数据库的参考序列。Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎,其对不同的 Gene 进行了编号,每个 gene 的编号就是 entrez gene id。它是最多有 11 位包含大写字母的字符串,一般有着 “X_Y” 的形式,其中 “X”是最多五个便于记忆的蛋白质编号,“_" 是下划线,“Y” 是最多五个便于记忆的物种编号。Ensembl stable ID 的结构是根据不同物种设置的前缀,加上数据所指的类型,如基因蛋白质,再加上一系列的数字。

2022-11-29 15:49:43 596

原创 R:R语言实战学习一(基本统计分析)

本学期的课程R语言实战只学了前六章的皮毛,实际上后面的知识用的更多,前面的是基础,这次学习第七章:基本统计分析。

2022-11-28 16:04:05 705

原创 GEO数据库学习三(ID转换后续 了解表达矩阵)

上一节已经成功进行了id转换,这一节主要是了解表达矩阵,通过绘图等参数判断表达矩阵是否正确。首先需要根据上一节过滤的探针,我们需要把exprSet表达矩阵的行名(探针id)换成基因名,处理完之后表达矩阵的处理就全部完成了。

2022-11-28 01:24:49 2809

原创 GEO数据库学习二(提取表达矩阵 ID转换准备)

上一节记录了如何下载数据,这一节学习id转换,主要是探针对应到symbol,其中表达矩阵的行是探针id,列是样品id,ids的列是探针id和symbol,我们的目的是利用探针id,将二者对应起来。

2022-11-27 18:57:19 4631 2

原创 GEO数据库学习一(简介 数据下载 芯片知识)

NCBI Gene Expression Omnibus(GEO)是一个存储各种高通量实验数据的公共数据库。这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。

2022-11-27 11:50:54 7975

原创 R:生信技能树学习笔记二(热图 id转换)

生信技能树小破站:R应该这样学5-7。

2022-11-26 11:45:29 390 2

原创 R:生信技能树学习笔记一

生信技能树小破站:R应该这样学1-4。

2022-11-26 01:50:13 316 2

原创 RNAseq分析全过程

本次实操数据来自下面的文章,是量化环境葡萄糖对转录组的影响,比较低糖和高糖环境下胰岛转录组的变化,胰岛来源小鼠。

2022-11-24 18:24:31 1290

原创 基因组重测序全流程(简易版)

基因组重测序全流程(简易版)

2022-11-23 16:01:21 2472 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除