TF数据库总结

参考:

最强攻略5:史上最全转录因子数据库汇总解读 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/343884679

1. Cistrome DB

人 + 小鼠
侧重于ChIP-seq和DNase-seq 的分析结果
Cistrome DB

收录了30451人和26013小鼠的TFs、组蛋白修饰和染色质可及性 样本,是迄今为止经整理和分析ChIP-seq 和 DNase-seq 数据最全面的数据库。使用统一的pipeline对其进行处理,并展示了每个样本的分析结果。

可在Cistrome DB查看转录因子调控的基因,详细的数据注释、分析结果和单个数据集的详细信息(数据的QC情况、motif分析结果、潜在的靶基因预测)、同时还可以在基因组浏览器中查看数据的分布及下载分析的结果文件。

2. dbCoRC

人 + 小鼠
H3K27ac ChIP-seq   ---增强子
http://dbcorc.cam-su.org/

CRC:Core transcriptional Regulatory Circuitries

全面的交互式CRC数据库

基于H3K27ac ChIP-Seq数据的计算分析,包含来自188个人类和50个鼠类样本的CRC模型。利用该数据库,可以获得单个样品的超级增强子(SE)、增强子和H3K27ac景观、CRC内SE区中每个核心转录因子(TF)的假定结合位点。

3. TRRUST

人 + 小鼠
人工注释,TF-target、TF-TF
http://www.grnpedia.org/trrust/

800个人类TF和828个小鼠TF的8,444和6,552个TF-target调节关系

4. TFtarget

来自ChIP-seq的  TF-target调控
http://bioinfo.life.hust.edu.cn

hTFtarget has curated comprehensive TF-target regulations from large-scale of ChIP-Seq data of human TFs (7,190 experiment samples of 659 TFs) in 569 conditions (399 types of cell line, 129 classes of tissues or cells, and 141 kinds of treatments).

所有的 ChIP-Seq 数据都来自 NCBI GEO、NCBI SRA 和 ENCODE 数据库等公共资源。
TFBS的位置权重矩阵(PWM)来自TRANSFAC、JASPAR和HOCOMOCO数据库,包含699个TFs的2737个TFBS主题。

功能有:1) 浏览和研究给定转录因子的靶基因;
2) 探索哪些转录因子可以调控给定基因;
3) 调查给定转录因子的公共 ChIP-Seq 样本;
4) 以用户定义的方式查看查询 TF 的峰值;
5) 调查所选细胞系中 TF 之间的潜在共轭关系;
6) 查询 TFs 对查询基因的候选共调作用;
7) 预测 TF 在给定序列上的结合位点。

5. TransmiR

19种生物
收集TF-microRNA 调控关系
http://www.cuilab.cn/transmir

涵盖约623个TF,约785个miRNA,19种生物和1,349种出版物。还有5个物种通过ChIP-seq证据得到的1,785,998 TF-miRNA信息 及相关注释。

6. JASPAR

脊椎动物、植物、昆虫、线虫、真菌和尾索动物六大类不同类生物
收录TF-motif
http://jaspar.genereg.net/

收集转录因子与DNA结合位点以及结合方式

7. HOCOMOCO

人 + 小鼠
ChIP-seq实验中获得的,PWM
https://hocomoco11.autosome.ru/

TF的binding motif,PWM

8. footprintDB

现有数据库中的所有物种
根据搜集到的数据 有效识别(/预测)TF与DNA之间的结合关系
http://floresta.eead.csic.es/footprintdb/index.php

定期从公共数据库和文献中收集TFs,整合了JASPAR/HOMOCOMO/Human TF等多个数据库的TF、DNA-binding motifs和DNA-binding sites 数据。

预测与特定DNA site或motif结合的TF;预测可能被DNA-binding 蛋白质识别的DNA motifs 或sites。

9. AnimalTFDB

183个物种
TF与转录辅因子 的DBD、结合位点等多种信息
AnimalTFDB4 (wchscu.cn)

有经过鉴定、分类和注释的97个物种全基因组水平的125,135个TF基因和80,060个转录辅因子基因。根据DBD 对 TF和辅因子进行功能分类。提供多种搜索预览方式,2个在线预测工具Predict TF和Predict TFBS(分别可以批量预测TF和预测DNA序列上的TF结合位点)、Blast工具和数据下载功能。

10. KnockTF

TF敲除前后的基因表达谱
http://www.licpathway.net/KnockTF/

提供了大量与转录因子敲降/敲除相关的人类基因表达谱数据集、转录因子及其靶基因的注释信息、转录因子的上游通路信息和下游靶基因的功能注释信息,以及转录因子结合到靶基因启动子、增强子和超级增强子的详细结合信息。

另外:

Joung J, Ma S, Tay T, Geiger-Schuller KR, Kirchgatterer PC, Verdine VK, Guo B, Arias-Garcia MA, Allen WE, Singh A, Kuksenko O, Abudayyeh OO, Gootenberg JS, Fu Z, Macrae RK, Buenrostro JD, Regev A, Zhang F. A transcription factor atlas of directed differentiation. Cell. 2023 Jan 5;186(1):209-229.e26. doi: 10.1016/j.cell.2022.11.026. PMID: 36608654; PMCID: PMC10344468.

也是通过文献手工查询并总结的1836 TF,只包含了这些基因名称等信息,网站没找到

创建了一个涵盖了人类所有TF异构亚型(1836 TF genes encoded by 3548 splice isoforms)的条形码文库,并将其用于构建TF图谱(TF Atlas),以单细胞分辨率绘制了每个TF过表达在人类胚胎干细胞(110万个hESCs)中引起的表达谱变化。该TF Atlas既可以系统的识别  驱动细胞状态改变 的TF,也可以对TF分类,还可以用来预测和验证不同TF组合对细胞的影响。

  • 30
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 要建立自己的 `tf.data.Dataset`,需要执行以下步骤: 1. 准备数据。这可以是从文件中读取的数据,也可以是从内存中生成的数据。 2. 定义数据的结构。这包括数据的形状和类型。 3. 使用 `tf.data.Dataset.from_tensor_slices` 或 `tf.data.Dataset.from_generator` 等函数将数据转换为 `tf.data.Dataset` 对象。 例如,下面是使用 `tf.data.Dataset.from_tensor_slices` 从内存中的数据创建 `tf.data.Dataset` 的示例代码: ``` import tensorflow as tf # 准备数据 data = [1, 2, 3, 4, 5] # 定义数据的结构 dataset = tf.data.Dataset.from_tensor_slices(data) # 打印数据集的信息 print(dataset.element_spec) ``` 输出: ``` TensorSpec(shape=(), dtype=tf.int32, name=None) ``` 此时,我们就创建了一个包含单个整数的数据集。 您还可以使用 `tf.data.Dataset.batch` 函数将数据打包成批次,使用 `tf.data.Dataset.repeat` 函数将数据集重复多次,使用 `tf.data.Dataset.shuffle` 函数打乱数据的顺序,等等。 ### 回答2: 要建立自己的 tf.data.Dataset,一般有以下几个步骤: 第一步,准备数据。可以从不同的来源获取数据,例如文件、数据库、API等。将数据转换成张量的形式,并进行预处理和清洗。 第二步,构建数据管道。使用 tf.data.Dataset.from_tensor_slices() 函数将数据切分成一个个样本,每个样本都是一个张量。然后可以通过链式调用一系列的数据转换函数,如 map()、filter()、batch()、shuffle()等,来对数据进行进一步处理和增强。 第三步,迭代数据。使用迭代器(iterator)从数据管道中获取样本,并在模型中使用。可以通过创建初始迭代器(iterator.initializer)和迭代器可重新初始化(iterator.reinitializable)两种方式实现。 第四步,训练模型。使用得到的数据进行模型的训练和评估。可以使用 tf.data.Dataset 对象作为模型的输入,通过逐个样本地传递到模型中,并通过调用模型的 fit() 或者 train_on_batch() 方法进行训练。 第五步,优化性能。tf.data.Dataset 提供了一些参数和方法来优化数据管道的性能,如 prefetch()、cache() 和 map() 中的 num_parallel_calls 参数等,可以根据需要对数据管道进行设置。 总结来说,建立自己的 tf.data.Dataset 需要准备数据、构建数据管道、迭代数据、训练模型和优化性能。通过将数据转换成张量,并使用一系列的函数对数据进行处理和增强,可以提高数据的处理效率和模型的训练性能。 ### 回答3: 建立自己的 tf.data.Dataset 可以通过以下步骤完成: 第一步,首先需要准备好数据。数据可以是来自于不同来源的数据集,例如 CSV、Excel、数据库等,或者是在内存中的数据结构。我们需要将数据转化成 TensorFlow 中的张量或者是可以转化成张量的形式。 第二步,使用 tf.data.Dataset.from_tensor_slices() 方法将数据转化为 Dataset 对象。该方法通常用于处理内存中的数据,通过传递一个或多个张量作为输入参数,将张量的元素切片成多个数据项。例如,如果我们有一个包含100个样本的张量 X,并且每个样本包含2个特征,我们可以使用该方法将其转化为 Dataset 对象:dataset = tf.data.Dataset.from_tensor_slices(X)。 第三步,通过链式操作,可以对 Dataset 对象进行一系列的转换和处理。例如,可以使用 map() 方法对每个样本进行一些预处理,使用 filter() 方法过滤掉某些数据项,使用 batch() 方法对数据进行批处理等。这些转换操作可以根据数据的特点和需求进行自定义。 第四步,最后可以对 Dataset 对象进行迭代,获取每个样本。使用 for 循环遍历 Dataset 对象,可以得到每个样本的特征。例如,可以使用以下代码遍历 Dataset: for sample in dataset: # 访问每个样本的特征 print(sample) 通过以上步骤,我们就可以建立自己的 tf.data.Dataset 对象,并对其进行自定义的数据处理和转换操作。构建和使用 tf.data.Dataset 是 TensorFlow 中进行数据输入的一种灵活且高效的方式,可以帮助我们更好地处理和管理数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值