C++ 实现二维数据的k-means聚类

最新推荐文章于 2022-12-22 12:46:30 发布

JoannaJuanCV

最新推荐文章于 2022-12-22 12:46:30 发布

阅读量2.2k

点赞数 1

分类专栏：图像处理算法（c++/python opencv）

本文链接：https://blog.csdn.net/zfjBIT/article/details/91381547

版权

图像处理算法（c++/python opencv）专栏收录该内容

90 篇文章 6 订阅

订阅专栏

K-means 算法是一种简单有效的无监督学习方法，它可以有效地将多维空间（用N表示）中的点聚成一个个紧密的簇。

K-means算法的优化目标是使求出K个中心点，使每一个点到该点的欧氏距离平方之和尽量小。

简单来说就是把一个分到一个类中的所有数据点的每一维相加，得一个向量。然后，该向量的每一维除以该类的点的个数。这样得的向量就是该类的中心(centroid).

算法的思路如下：

1. 初始化K个中心点。

这K个点可以是在所有输入数据点中随机抽取的，也可以是取前K个点，也可以是从N维空间中任意一个点。初始聚类中心点的选择，对最终聚类结果有一定影响；

2. 对任意一个数据点，求与它最近的中心点，并认为该数据点属于该中心点所代表的类。对于M(假设共有M个数据点）个数据点，分别计算每个点与K个当前的中心点的欧氏距离平方值，点x_i与哪个中心点（如c_j）的欧氏距离平方最小那么它就分成该类。（该过程可以求出一些指标，用于终止程序。如，求出整体欧氏距离之和）；

3. 更新每个类的中心点。

4. 由 2 得出的指标判断是否可以终止：否，进行 2 ；是，终止，并给出中心点信息。

#include <iostream>
#include <fstream>
#include <cmath>
#include <vector>
#include <opencv2\opencv.hpp>

using namespace cv;
using namespace std;

#define k 3

cv::Scalar colorBar[]=
{
	{0, 0, 255},
	{0, 255, 0},
	{255, 0, 0},
	{ 0, 0, 0 },
	{ 0, 255, 255 },
	{ 255, 0, 255 }
};

//存放元组的属性信息
struct Tuple {
	float attr1;
	float attr2;
};
//计算两个元组间的欧几里距离
float getDistXY(Tuple t1, Tuple t2)
{
	return sqrt((t1.attr1 - t2.attr1) * (t1.attr1 - t2.attr1) + (t1.attr2 - t2.attr2) * (t1.attr2 - t2.attr2));
}

//根据质心，决定当前元组属于哪个簇
int clusterOfTuple(Tuple means[], Tuple tuple) {
	float dist = getDistXY(means[0], tuple);
	float tmp;
	int label = 0;//标示属于哪一个簇
	for (int i = 1; i<k; i++) {
		tmp = getDistXY(means[i], tuple);
		if (tmp<dist) { dist = tmp; label = i; }
	}
	return label;
}
//获得给定簇集的平方误差
float getVar(vector<Tuple> clusters[], Tuple means[]) {
	float var = 0;
	for (int i = 0; i < k; i++)
	{
		vector<Tuple> t = clusters[i];
		for (int j = 0; j< t.size(); j++)
		{
			var += getDistXY(t[j], means[i]);
		}
	}
	//cout<<"sum:"<<sum<<endl;
	return var;

}
//获得当前簇的均值（质心）
Tuple getMeans(vector<Tuple> cluster) {

	int num = cluster.size();
	double meansX = 0, meansY = 0;
	Tuple t;
	for (int i = 0; i < num; i++)
	{
		meansX += cluster[i].attr1;
		meansY += cluster[i].attr2;
	}
	t.attr1 = meansX / num;
	t.attr2 = meansY / num;
	return t;
	//cout<<"sum:"<<sum<<endl;
}

void KMeans(vector<Tuple> tuples) {
	vector<Tuple> clusters[k];
	Tuple means[k];
	int i = 0;
	//默认一开始将前K个元组的值作为k个簇的质心（均值）
	for (i = 0; i<k; i++) {
		means[i].attr1 = tuples[i].attr1;
		means[i].attr2 = tuples[i].attr2;
	}
	int lable = 0;
	//根据默认的质心给簇赋值
	for (i = 0; i != tuples.size(); ++i) {
		lable = clusterOfTuple(means, tuples[i]);
		clusters[lable].push_back(tuples[i]);
	}

	cv::Mat showResult = cv::Mat::zeros(10, 10, CV_8UC3);
	showResult.setTo(255);
	//输出刚开始的簇
	for (lable = 0; lable<k; lable++) {
		cout << "第" << lable + 1 << "个簇：" << endl;
		vector<Tuple> t = clusters[lable];
		for (i = 0; i< t.size(); i++)
		{
			cout << "(" << t[i].attr1 << "," << t[i].attr2 << ")" << "   ";
			showResult.at<Vec3b>(t[i].attr1, t[i].attr2)[0] = colorBar[lable].val[0];
			showResult.at<Vec3b>(t[i].attr1, t[i].attr2)[1] = colorBar[lable].val[1];
			showResult.at<Vec3b>(t[i].attr1, t[i].attr2)[2] = colorBar[lable].val[2];
		}
		cout << endl;
	}

	float oldVar = -1;
	float newVar = getVar(clusters, means);
	while (abs(newVar - oldVar) >= 0) //当新旧准则函数值不发生明显变化时，算法终止
	{

		for (i = 0; i < k; i++) //更新每个簇的中心点
		{
			means[i] = getMeans(clusters[i]);
			//cout<<"means["<<i<<"]:"<<means[i].attr1<<"  "<<means[i].attr2<<endl;
		}
		oldVar = newVar;
		newVar = getVar(clusters, means); //计算新的准则函数值
		for (i = 0; i < k; i++) //清空每个簇
		{
			clusters[i].clear();
		}
		//根据新的质心获得新的簇
		for (i = 0; i != tuples.size(); ++i) {
			lable = clusterOfTuple(means, tuples[i]);
			clusters[lable].push_back(tuples[i]);
		}
		//输出当前的簇
		showResult.setTo(255);
		for (lable = 0; lable<k; lable++) {
			cout << "第" << lable + 1 << "个簇：" << endl;
			vector<Tuple> t = clusters[lable];
			for (i = 0; i< t.size(); i++)
			{
				cout << "(" << t[i].attr1 << "," << t[i].attr2 << ")" << "   ";
				showResult.at<Vec3b>(t[i].attr1, t[i].attr2)[0] = colorBar[lable].val[0];
				showResult.at<Vec3b>(t[i].attr1, t[i].attr2)[1] = colorBar[lable].val[1];
				showResult.at<Vec3b>(t[i].attr1, t[i].attr2)[2] = colorBar[lable].val[2];
			}
			cout << endl;
		}
	}
}

int main() {

	ifstream infile;
	infile.open("..\\data\\in.txt", ios::in);
	if (!infile) {
		cout << "不能打开输入的文件" << endl;
		return 0;
	}
	int count = 0;
	vector<Tuple> tuples;
	Tuple tuple;
	//从文件流中读入数据
	while (!infile.eof()) {
		count++;
		if (count % 2 == 1) infile >> tuple.attr1;
		else {
			infile >> tuple.attr2;
			tuples.push_back(tuple);
		}
	}

	//输出文件中的元组信息
	for (vector<Tuple>::size_type ix = 0; ix != tuples.size(); ++ix)
		cout << "(" << tuples[ix].attr1 << "," << tuples[ix].attr2 << ")" << "    ";
	cout << endl;
	KMeans(tuples);
	return 0;
}

结果如图：

JoannaJuanCV

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
3
评论
C++ 实现二维数据的k-means聚类

K-means 算法是一种简单有效的无监督学习方法，它可以有效地将多维空间（用N表示）中的点聚成一个个紧密的簇。K-means算法的优化目标是使求出K个中心点，使每一个点到该点的欧氏距离平方之和尽量小。简单来说就是把一个分到一个类中的所有数据点的每一维相加，得一个向量。然后，该向量的每一维除以该类的点的个数。这样得的向量就是该类的中心(centroid).算法的思路如下：1. 初始...
复制链接

扫一扫