1. 基本知识
torch.cdist 是一个用于计算两个批次的点之间的成对距离的函数
它在很多任务中非常有用,例如最近邻搜索、聚类等
(K-Means聚类算法基本知识(附Demo))
函数原型:torch.cdist(x1, x2, p=2)
参数:
- x1:一个形状为 (N,D) 的张量,表示第一组点,N为样本数量,D为特征维度
- x2:一个形状为 (M,D) 的张量,表示第二组点
- p:距离度量的类型,默认为2,表示欧几里得距离。可以选择其他值,例如1(曼哈顿距离)
返回值: 返回一个形状为 (N,M) 的张量,其中每个元素 (i,j) 表示 x1[i] 和 x2[j] 之间的距离
对于距离类型P如下
- 欧几里得距离 (p=2):最常用的距离度量,表示两点之间的直线距离。适合于许多应用,如聚类和K近邻算法
-
曼哈顿距离 (p=1):也称为“城市街区距离”,它计算在坐标轴上沿着轴的总距离。适用于需要考虑各维度独立变化的情况
-
切比雪夫距离 (p=∞):表示在任意维度上,两个点之间的最大距离。适合于某些特定的优化问题
-
其他 p 值(例如 p=0)
p=0:通常不用于距离计算,因为这将返回一个布尔值(是否相等)
p > 2:这些值会产生更强的惩罚,对于离散化的特征特别有效
根据数据的性质和任务的需求,选择合适的距离度量非常重要
例如,对于一些高维数据,曼哈顿距离可能比欧几里得距离更合适,因为它对噪声的鲁棒性更强
应用场景:
- 欧几里得距离:图像处理、聚类等
- 曼哈顿距离:路线规划、网络流量分析等
- 切比雪夫距离:一些优化和调度问题
2. Demo
import torch
# 创建两个张量,表示两组点
# 第一组点:3个样本,2个特征
x1 = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])
# 第二组点:2个样本,2个特征
x2 = torch.tensor([[1.0, 1.0], [2.0, 2.0]])
# 计算两组点之间的欧几里得距离
distances = torch.cdist(x1, x2)
# 输出结果
print("两组点之间的距离:")
print(distances)
截图如下:
输出的大概意思:
- 输出张量的形状为 (3,2),表示第一组中的每个点与第二组中的每个点之间的距离
- 元素 (i, j) 表示 x1[i] 和 x2[j] 之间的距离