数据挖掘笔记-聚类-DBSCAN-文档聚类

人生偌只如初见

已于 2023-01-30 18:34:23 修改

阅读量2.1k

点赞数

分类专栏： DataMining 文章标签：数据挖掘聚类 DBCSAN 特征选择降维开方检验

于 2014-08-21 17:22:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fighting_one_piece/article/details/38733453

版权

本文档介绍了使用DBSCAN算法进行文档聚类的过程。首先通过TF-IDF值将文档向量化，然后利用余弦距离计算相似性。在实际应用中，发现将数据降维后，DBSCAN聚类效果得到显著提升。Java实现代码已开源，托管于GitHub。

摘要由CSDN通过智能技术生成

DBSCAN算法原理可以参考

数据挖掘笔记-聚类-DBSCAN-原理与简单实现

本篇主要是根据DBSCAN算法实现文档集的聚类。首先是要将需要聚类的文档进行向量化处理，这里采用的是TFIDF值来表示。文档之间的距离选用的是余弦距离，后面步骤没什么变化。DBSCAN算法聚类完成之后发现结果不是很理想，后面发现将数据降维后，结果还是比较理想的。

java实现代码如下

public class DocDBScanBuilder {
	
	//半径
	public static double EPISLON = 0.04;
	//密度、最小点个数
	public static int MIN_POINTS = 15;
	
	//初始化数据
	public List<DataPoint> initData() {
		List<DataPoint> dataPoints = new ArrayList<DataPoint>();
		try {
			String path = DocDBScanBuilder.class.getClassLoader().getResource("测试").toURI().getPath();
			DocumentSet documentSet = DocumentLoader.loadDocumentSetByThread(path);
			List<Document> documents = documentSet.getDocuments();
			DocumentUtils.calculateTFIDF_0(documents);
			for(Document doc : documents) {
				DataPoint dataPoint = new DataPoint();
				dataPoint.setValues(doc.getTfidfWords());
				dataPoint.setCategory(doc.getCategory());
				dataPoints.add(dataPoint);
			}
		} catch (URISyntaxException e) {
			e.printStackTrace();
		}
		return dataPoints;
	}
	
	//获取当前点的邻居
	public List<DataPoint> obtainNeighbors(DataPoint current, List<DataPoint> points) {
		List<DataPoint> neighbors &

最低0.47元/天解锁文章

人生偌只如初见

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

人生偌只如初见 CSDN认证博客专家 CSDN认证企业博客

码龄17年

153: 原创

2万+: 周排名

1万+: 总排名

50万+: 访问

: 等级

6062: 积分

623: 粉丝

181: 获赞

138: 评论

314: 收藏

私信

关注

热门文章

分类专栏

NebulaGraph 2篇
Doris 1篇
DataMining 49篇
Python 33篇
J2EE 26篇
ElasticSearch 14篇
Spark 12篇
XXL-JOB 3篇
Neo4j 4篇
Flink 2篇
Hadoop 6篇
ES-Hadoop 2篇
HBase 6篇
Hive 3篇
Tez 2篇
Kafka 5篇
Storm 3篇
JStorm 1篇
Tachyon 2篇
Oozie 1篇
Cassandra 1篇
Titan 2篇
Lucene 1篇
Redis 4篇
MongoDB 3篇
Akka 1篇
DataX 3篇
Crawler 4篇
Docker 3篇

最新评论

Java学习笔记-EXCEL文件的读写操作
qq_27475765: String sheetId = "rId1"; 这个rld1是怎么知道的。
Sanic学习笔记-搭建简单WEB基础框架
jeffreyshou: 老大，《Sanic学习笔记-搭建简单WEB基础框架》完整代码有吗？想学习下，谢谢
ElasticSearch学习笔记-Vector向量搜索记录
天津图芬奇: 搜索速度会根据数据规模线性增加，如果数据量大的话，不太可行，可以参考基于elasticsearch实现大规模向量检索这篇csdn博客，将向量搜索转成全文检索，搜索速度以及效率大大提升。
Neo4j学习笔记-Embedded嵌入模式简单示例
rainysky7: 请问作者有NEO4J的学习资源嘛，我想付费获取。最近在做一个用java开发后端的小项目，需要用NEO4J来做数据库，用java操作Neo4j，想找资料学习
Sanic学习笔记-搭建简单WEB基础框架
LaoYuanPython: 有幸阅读博主才出炉不到2天的大作！谢谢博主提供的案例代码分享!如此好文,点赞感谢！欢迎博主到本人的Python专栏来交流！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。