机器学习部分:距离的度量(欧氏距离,曼哈顿距离,夹角余弦距离,切比雪夫距离,汉明距离,闵可夫斯基距离,马氏距离)

在数据挖掘中,我们经常需要计算样本之间的相似度(Similarity ),我们通常的做法是计算样本之间的距离,本文对距离计算方法做以下总结。

距离计算方法

 

1.欧式距离EuclideanDistance

欧式距离:也称欧几里得距离,在一个N维度的空间里,求两个点的距离,这个距离肯定是一个大于等于零的数字,那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开方。

 

(1)二维平面上两点a(x1,y1),b(x2,y2)之间的欧式距离公式:

 

(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的欧式距离公式:

 

2. 曼哈顿距离(ManhattanDistance)

 

曼哈顿距离也叫”曼哈顿街区距离”。想象你在曼哈顿街道上,从一个十字路口开车到另一个十字路口,驾驶距离就是这个“曼哈顿距离”。

(1)二维平面上两点a(x1,y1),b(x2,y2)之间的曼哈顿距离公式:

(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的曼哈顿距离公式:

 

  • 7
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是使用Python实现k-means算法,其中包括欧氏距离曼哈顿距离夹角余弦距离的实现: ```python import numpy as np import math # 欧氏距离 def euclidean_distance(x1, x2): return np.sqrt(np.sum((x1 - x2)**2)) # 曼哈顿距离 def manhattan_distance(x1, x2): return np.sum(np.abs(x1 - x2)) # 夹角余弦距离 def cosine_distance(x1, x2): dot_product = np.dot(x1, x2) norm_x1 = np.linalg.norm(x1) norm_x2 = np.linalg.norm(x2) return 1 - dot_product / (norm_x1 * norm_x2) class KMeans: def __init__(self, k=3, max_iters=100, distance="euclidean"): self.k = k self.max_iters = max_iters self.distance = distance def initialize_centroids(self, X): n_samples, n_features = X.shape centroids = np.zeros((self.k, n_features)) for i in range(self.k): centroid = X[np.random.choice(range(n_samples))] centroids[i] = centroid return centroids def closest_centroid(self, sample, centroids): distances = np.zeros(self.k) for i, centroid in enumerate(centroids): if self.distance == "euclidean": distances[i] = euclidean_distance(sample, centroid) elif self.distance == "manhattan": distances[i] = manhattan_distance(sample, centroid) else: distances[i] = cosine_distance(sample, centroid) closest_index = np.argmin(distances) return closest_index def create_clusters(self, X, centroids): clusters = [[] for _ in range(self.k)] for sample_i, sample in enumerate(X): centroid_i = self.closest_centroid(sample, centroids) clusters[centroid_i].append(sample_i) return clusters def calculate_centroids(self, X, clusters): n_features = X.shape[1] centroids = np.zeros((self.k, n_features)) for i, cluster in enumerate(clusters): centroid = np.mean(X[cluster], axis=0) centroids[i] = centroid return centroids def get_cluster_labels(self, clusters, X): y_pred = np.zeros(X.shape[0]) for cluster_i, cluster in enumerate(clusters): for sample_i in cluster: y_pred[sample_i] = cluster_i return y_pred def predict(self, X): centroids = self.initialize_centroids(X) for _ in range(self.max_iters): clusters = self.create_clusters(X, centroids) prev_centroids = centroids centroids = self.calculate_centroids(X, clusters) if np.all(centroids == prev_centroids): break return self.get_cluster_labels(clusters, X) ``` 使用示例: ```python from sklearn.datasets import make_blobs import matplotlib.pyplot as plt X, y = make_blobs(centers=3, n_samples=500, random_state=1) kmeans = KMeans(k=3, max_iters=100, distance="euclidean") y_pred = kmeans.predict(X) plt.scatter(X[:, 0], X[:, 1], c=y_pred) plt.title("K-Means Clustering") plt.show() ``` 其中,distance参数可以设置为"euclidean"、"manhattan"或者"cosine",表示使用欧氏距离曼哈顿距离夹角余弦距离

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值