一文读懂PyTorch中cdist 函数的知识

码农研究僧

于 2024-10-04 08:00:00 发布

阅读量2.2k

点赞数 30

分类专栏：深度学习文章标签： pytorch python 欧几里得距离曼哈顿距离

本文链接：https://blog.csdn.net/weixin_47872288/article/details/142635772

版权

深度学习专栏收录该内容

35 篇文章

订阅专栏

1. 基本知识

torch.cdist 是一个用于计算两个批次的点之间的成对距离的函数

它在很多任务中非常有用，例如最近邻搜索、聚类等
（K-Means聚类算法基本知识（附Demo））

函数原型：torch.cdist(x1, x2, p=2)

参数：

x1：一个形状为 (N,D) 的张量，表示第一组点，N为样本数量，D为特征维度
x2：一个形状为 (M,D) 的张量，表示第二组点
p：距离度量的类型，默认为2，表示欧几里得距离。可以选择其他值，例如1（曼哈顿距离）

返回值：返回一个形状为 (N,M) 的张量，其中每个元素 (i,j) 表示 x1[i] 和 x2[j] 之间的距离

对于距离类型P如下

欧几里得距离 (p=2)：最常用的距离度量，表示两点之间的直线距离。适合于许多应用，如聚类和K近邻算法

在这里插入图片描述

曼哈顿距离 (p=1)：也称为“城市街区距离”，它计算在坐标轴上沿着轴的总距离。适用于需要考虑各维度独立变化的情况
切比雪夫距离 (p=∞)：表示在任意维度上，两个点之间的最大距离。适合于某些特定的优化问题
其他 p 值（例如 p=0）
p=0：通常不用于距离计算，因为这将返回一个布尔值（是否相等）
p > 2：这些值会产生更强的惩罚，对于离散化的特征特别有效

根据数据的性质和任务的需求，选择合适的距离度量非常重要

例如，对于一些高维数据，曼哈顿距离可能比欧几里得距离更合适，因为它对噪声的鲁棒性更强

应用场景：

欧几里得距离：图像处理、聚类等
曼哈顿距离：路线规划、网络流量分析等
切比雪夫距离：一些优化和调度问题

2. Demo

import torch

# 创建两个张量，表示两组点
# 第一组点：3个样本，2个特征
x1 = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])

# 第二组点：2个样本，2个特征
x2 = torch.tensor([[1.0, 1.0], [2.0, 2.0]])

# 计算两组点之间的欧几里得距离
distances = torch.cdist(x1, x2)

# 输出结果
print("两组点之间的距离：")
print(distances)