python——sns.distplot y轴数据如何归一化

病树前头

于 2024-08-22 09:10:28 发布

阅读量611

点赞数 15

分类专栏：工作问题文章标签： python

本文链接：https://blog.csdn.net/yin1331102028yin/article/details/141398076

版权

工作问题专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在Seaborn库的distplot函数中，y轴并不是直接表示数据的频数或概率。distplot默认会绘制直方图（histogram）并且用核密度估计（Kernel Density Estimate，KDE）进行平滑。这时候y轴表示的是核密度估计的值。
如果你想要对y轴进行归一化，你可以设置norm_hist参数为True，它将直方图的面积归一化为1。另外，你可以使用hist_kws参数来传递给hist绘图函数的参数，例如，weights参数用于指定直方图的权重。以下是一个示例：

import seaborn as sns
import matplotlib.pyplot as plt

# 示例数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5]

# 使用distplot绘制直方图和核密度估计
sns.distplot(data, norm_hist=True, kde=False, hist_kws={'weights': [1/len(data)]*len(data)})

plt.show()

在这个例子中，norm_hist=True确保直方图的面积总和为1，而hist_kws={‘weights’: [1/len(data)]*len(data)}使用权重将直方图的高度归一化。请注意，kde=False禁用了核密度估计，因为在这个例子中我们主要关注直方图的归一化。

我有一列数据，我想画这列数据的概率分布图，可以使用Seaborn库的distplot函数来绘制数据的概率分布图。以下是一个简单的例子：

import seaborn as sns
import matplotlib.pyplot as plt

# 示例数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5]

# 使用distplot绘制概率分布图
sns.distplot(data, hist=True, kde=True, bins=6, hist_kws={'edgecolor': 'black'})

# 显示图形
plt.show()

在这个例子中，data是你的数据列。hist=True表示显示直方图，kde=True表示显示核密度估计。bins参数用于指定直方图的箱数，可以根据你的数据进行调整。hist_kws={‘edgecolor’: ‘black’}用于设置直方图的边缘颜色。
你可以根据实际需求对这些参数进行调整。这段代码将显示数据的概率分布图，包括直方图和核密度估计。

y轴数据有时候是零点几，有时候是几百，该怎么办
如果你希望在绘制概率分布图时，y轴的数值以概率的形式呈现，而不是原始的频数或密度，你可以使用norm_hist=True参数来将直方图归一化。这样，y轴将表示概率密度而不是原始的频数。
以下是更新后的代码：

import seaborn as sns
import matplotlib.pyplot as plt

# 示例数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5]

# 使用distplot绘制概率分布图，归一化直方图
sns.distplot(data, hist=True, kde=True, bins=6, hist_kws={'edgecolor': 'black'}, norm_hist=True)

# 显示图形
plt.show()

在这个例子中，norm_hist=True参数确保直方图的面积总和为1，因此y轴表示的是概率密度。这样，不论数据的范围如何，y轴的值都会在0到1之间，表示相对的概率。

fig=sns.distplot(data['motif_rmsd'], hist=True, kde=True, bins=50, hist_kws={'edgecolor':'black'}, norm_hist=True)
plt.ylabel("Density")
plt.show()
hist_fig = fig.get_figure()
hist_fig.savefig('./em_motif_rmsd', dpi = 600)
这是我的代码，但是结果还是y轴的数值很大

如果你的数据的y轴数值仍然较大，即使使用了norm_hist=True参数，可能是由于核密度估计（KDE）的平滑过程引入了较大的值。在这种情况下，你可以考虑绘制纯直方图（不使用KDE）来更好地看到概率分布。以下是修改后的代码：

import seaborn as sns
import matplotlib.pyplot as plt

# 示例数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5]

# 使用distplot绘制概率分布图，纯直方图，归一化直方图
fig = sns.distplot(data, hist=True, kde=False, bins=50, hist_kws={'edgecolor': 'black'}, norm_hist=True)
plt.ylabel("Density")
plt.show()

# 保存图形
hist_fig = fig.get_figure()
hist_fig.savefig('./em_motif_rmsd', dpi=600)

在这个例子中，我将kde参数设置为False，以便禁用核密度估计，仅显示纯直方图。这样，你应该能够看到y轴的值在0到1之间，表示概率密度。请根据你的数据和需求选择适合的方式。
kde设置为True, y轴数值依旧很大

如果即使在启用norm_hist=True和禁用核密度估计（kde=False）的情况下，y轴仍然显示很大的数值，可能是因为Seaborn默认使用的是高斯核密度估计，可能导致过大的数值。在这种情况下，你可以尝试手动缩放y轴，使其表示概率密度。

以下是一个例子，其中使用y轴数据 * 某个缩放因子来缩放y轴，将其表示为概率密度：

import seaborn as sns
import matplotlib.pyplot as plt

# 示例数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5]

# 使用distplot绘制概率分布图，启用核密度估计，纯直方图，归一化直方图
fig = sns.distplot(data, hist=True, kde=True, bins=50, hist_kws={'edgecolor': 'black'}, norm_hist=True)

# 缩放y轴，将其表示为概率密度
y_scale_factor = 1 / (max(fig.get_lines()[0].get_ydata()) - min(fig.get_lines()[0].get_ydata()))
plt.gca().set_ylim([0, 1])
plt.gca().set_yticklabels([f'{x * y_scale_factor:.2f}' for x in plt.gca().get_yticks()])

plt.ylabel("Density")
plt.show()

# 保存图形
hist_fig = fig.get_figure()
hist_fig.savefig('./em_motif_rmsd', dpi=600)

在这个例子中，通过计算一个缩放因子，将y轴缩放到0到1之间，并使用set_yticklabels来确保y轴的标签表示概率密度。请根据你的数据和需求进行适当的调整。
怎样将sns.distplot()的纵坐标改成频率形式
在Seaborn中，sns.distplot()函数的y轴默认显示的是核密度估计值。如果你希望将y轴改成频率形式，你可以使用y轴数据 * 某个缩放因子的方式手动进行缩放。以下是一个示例代码：

import seaborn as sns
import matplotlib.pyplot as plt

# 示例数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5]

# 使用distplot绘制频率分布图
fig = sns.distplot(data, hist=True, kde=False, bins=6, hist_kws={'edgecolor': 'black'})

# 计算缩放因子，将y轴缩放成频率形式
y_scale_factor = 1 / len(data)
plt.gca().set_ylim([0, 1])
plt.gca().set_yticklabels([f'{x * y_scale_factor:.2%}' for x in plt.gca().get_yticks()])

plt.ylabel("Frequency")
plt.show()

在这个例子中，通过计算一个缩放因子，将y轴缩放到0到1之间，并使用set_yticklabels将y轴标签表示为频率形式（百分比形式）。根据你的具体需求，可以调整代码中的参数。
matplotlib.pyplot 如何画概率分布图
在matplotlib.pyplot中，你可以使用hist函数来绘制概率分布图。以下是一个简单的示例：

import matplotlib.pyplot as plt
import numpy as np

# 示例数据
data = np.random.randn(1000)  # 生成随机正态分布数据

# 绘制概率分布图
plt.hist(data, bins=30, density=True, edgecolor='black')  # density=True 表示将直方图归一化为概率分布
plt.xlabel('Value')
plt.ylabel('Probability Density')
plt.title('Probability Distribution Plot')

plt.show()