2025.04.22【Sankey】流图分析技巧与应用

穆易青

于 2025-04-22 15:52:16 发布

阅读量772

点赞数 10

分类专栏： R语言文章标签：信息可视化

本文链接：https://blog.csdn.net/yangl7/article/details/147423844

版权

R语言专栏收录该内容

42 篇文章

订阅专栏

Sankey

Customize colors

Learn how to customize node and connection colors.

Customize colors

Migration flow

A highly customized sankey diagram to explore migration
flows between countries.

Migration flow

文章目录

Sankey图：生物信息学中的流图分析技巧与应用

引言

在生物信息学领域，数据的可视化是理解复杂数据集的关键。Sankey图作为一种特殊的流图，它通过直观地展示不同实体间的流动关系，帮助我们理解数据流、基因表达量的变化或是生物过程中物质的转移。今天，我们将深入探讨Sankey图的基本概念、在生物信息学中的应用，以及如何在R语言中使用networkD3包来构建Sankey图。

Sankey图的基本概念

Sankey图是一种特殊类型的流图，它通过宽度不等的箭头直观地表示不同节点（实体）之间的流动量。这种图表的特点是：

节点（Entities）：通常以矩形或文本形式表示，代表数据集中的实体。
流动（Flows）：通过箭头或弧线显示，箭头的宽度与流量的大小成正比。

在生物信息学中，Sankey图可以用来展示基因表达量的变化、代谢途径中物质的转移等。

Sankey图在生物信息学中的应用

基因表达量分析：通过Sankey图，我们可以直观地看到不同基因在不同条件下的表达量变化。
代谢途径分析：展示代谢物在不同代谢途径中的流动，帮助我们理解生物体的代谢机制。
数据流分析：在大规模数据处理中，Sankey图可以帮助我们追踪数据流的路径和变化。

R语言中的Sankey图构建

在R语言中，networkD3包是构建Sankey图的首选工具。下面，我们将详细介绍如何使用这个包来创建Sankey图。

安装和加载`networkD3`包

首先，我们需要安装并加载networkD3包。如果你还没有安装这个包，可以使用以下命令进行安装：

install.packages("networkD3")

然后，加载这个包：

library(networkD3)

创建Sankey图的数据结构

Sankey图需要两个主要的数据结构：links和nodes。

nodes：包含节点的信息，如ID和名称。
links：包含流动的信息，如源节点、目标节点和流量值。

下面是一个简单的示例数据：


# 创建节点数据
nodes <- data.frame(name = c("Node1", "Node2", "Node3", "Node4"),
                    id = 1:4)

# 创建链接数据
links <- data.frame(source = c(1, 1, 2, 3),
                    target = c(2, 3, 4, 4),
                    value = c(10, 20, 30, 40))

使用`sankeyNetwork`函数创建Sankey图

sankeyNetwork函数是networkD3包中用于创建Sankey图的主要函数。我们将使用上面创建的数据来生成Sankey图。


# 创建Sankey图
sankey <- sankeyNetwork(Links = links, Nodes = nodes, Source = "source",
                        Target = "target", Value = "value", NodeID = "id",
                        units = "Mb", fontSize = 12, nodeWidth = 30)

# 打印Sankey图
print(sankey)

这段代码将生成一个基本的Sankey图，其中节点和链接根据提供的数据进行布局。

自定义Sankey图的外观

networkD3包提供了多种选项来自定义Sankey图的外观，包括节点的颜色、宽度、字体大小等。


# 自定义节点颜色
nodes$color <- c("red", "blue", "green", "yellow")

# 更新Sankey图
sankey <- sankeyNetwork(Links = links, Nodes = nodes, Source = "source",
                        Target = "target", Value = "value", NodeID = "id",
                        units = "Mb", fontSize = 12, nodeWidth = 30,
                        nodeColour = nodes$color)

# 打印更新后的Sankey图
print(sankey)

这段代码将为每个节点设置不同的颜色，使图表更加直观和易于理解。

Sankey图的高级应用

动态交互式Sankey图

networkD3包还支持创建动态交互式的Sankey图，这可以通过shiny包实现。下面是一个简单的示例：

library(shiny)

# 创建一个简单的UI
ui <- fluidPage(
  plotOutput("sankeyPlot")
)

# 创建服务器逻辑
server <- function(input, output) {
  output$sankeyPlot <- renderPlot({
    sankey <- sankeyNetwork(Links = links, Nodes = nodes, Source = "source",
                            Target = "target", Value = "value", NodeID = "id",
                            units = "Mb", fontSize = 12, nodeWidth = 30,
                            nodeColour = nodes$color)
    print(sankey)
  })
}

# 运行Shiny应用
shinyApp(ui = ui, server = server)

这段代码将创建一个简单的Shiny应用，其中包含一个动态的Sankey图。