数据挖掘与分析应用:聚类算法,kmeans聚类,DBSCAN基于密度空间聚类,关联规则法探索数据

数据挖掘与分析应用:聚类算法,kmeans聚类,DBSCAN基于密度空间聚类,关联规则法探索数据

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲
数据挖掘知识系列文章
【1】数据挖掘与分析应用:理解业务和数据,准备数据,数据清洗,标准化,缺失值处理,构建数据集
【2】数据挖掘与分析应用:算法模型选择与训练、评估模型、上线部署,回到准备数据阶段
【3】数据挖掘与分析应用:分类算法:k近邻KNN,决策树CART,贝叶斯,支持向量机SVM,深度学习DNN,xgboost分类


数据挖掘聚类算法k-means聚类

在这里插入图片描述
在这里插入图片描述
没有标签
分开就行
但是类别不清楚

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
核心成员跟谁联系?聚一堆

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
k不能太大,太大就gg
数据量也不能太大

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
只看一小批

在这里插入图片描述

DBSCAN聚类:打破形状,使用密度

在这里插入图片描述
kmeans是基于划分的
在这里插入图片描述
在这里插入图片描述
文字和草原分开
在这里插入图片描述
在这里插入图片描述
算半径
内部的样本量足够密集
在这里插入图片描述
归类
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
你拉我,我拉你
连成一篇
每个区域就是一个聚类结果
游离点就没法玩

不需要划分k
自动分k
噪声点立群OOK

在这里插入图片描述
r和量难顶
数据量大也不行
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实战

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

关联规则

在这里插入图片描述
生鲜蔬菜要放在超市最里面
在这里插入图片描述
固定项目的集合,数量多
啤酒和尿布
共同超过了k个人
啤酒和尿布就是频繁项目集合

支持度:就是项集xy在总集中的概率k/n
在这里插入图片描述
买x的情况下,买y的概率
置信度

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
买x的情况下买y
提升度高,说明两者关联关系,提升的作用
豆浆油条的提升度高
这就是关联规则
懂????

在这里插入图片描述
在这里插入图片描述
支持度阈值s_th
频繁项集
数字是个数
在这里插入图片描述
网上找

关联规则的序列规则

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这个课程垃圾,不学了,换一个课程


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
好的,这里是基于 DBSCAN 算对多个 .plt 轨迹数据文件进行聚类,并以 folium 高德地图可视化轨迹数据的代码实现: 首先,需要安装 folium、pandas、numpy、scikit-learn 库。 ```python !pip install folium pandas numpy scikit-learn ``` 然后,按照以下步骤进行操作: 1. 导入所需库: ```python import os import pandas as pd import numpy as np from sklearn.cluster import DBSCAN import folium from folium.plugins import HeatMap ``` 2. 定义函数来读取数据并将其转换为用于聚类的格式: ```python def read_file(file_path): data = pd.read_csv(file_path, skiprows=6, header=None, names=['lat', 'lon', 'zero', 'alt', 'days', 'date', 'time']) data = data.drop(['zero', 'alt'], axis=1) data = data.dropna() data['datetime'] = pd.to_datetime(data['days'].astype(int).astype(str) + ' ' + data['time']) data['lat'] = data['lat'].astype(float) data['lon'] = data['lon'].astype(float) data = data.drop(['days', 'date', 'time'], axis=1) return np.array(data[['lat', 'lon']].values.tolist()) ``` 3. 定义函数来执行聚类: ```python def perform_clustering(data, eps, min_samples): db = DBSCAN(eps=eps, min_samples=min_samples, algorithm='ball_tree', metric='haversine').fit(np.radians(data)) cluster_labels = db.labels_ num_clusters = len(set(cluster_labels)) return cluster_labels, num_clusters ``` 4. 定义函数来可视化聚类结果: ```python def visualize_clusters(data, cluster_labels, num_clusters): m = folium.Map(location=[data[:, 0].mean(), data[:, 1].mean()], zoom_start=12) colors = ['red', 'blue', 'green', 'purple', 'orange', 'darkred', 'lightred', 'beige', 'darkblue', 'darkgreen', 'cadetblue', 'darkpurple', 'pink', 'lightblue', 'lightgreen', 'gray', 'black', 'lightgray'] for i in range(num_clusters): cluster_data = data[cluster_labels == i] if len(cluster_data) > 0: HeatMap(cluster_data, radius=15, blur=10, max_zoom=13, gradient={0.4: colors[i % len(colors)]}).add_to(m) return m ``` 5. 遍历文件夹中的所有文件并聚类它们: ```python file_path = 'geolife_sample' # 数据文件夹路径 eps = 100 # 聚类半径 min_samples = 10 # 最小样本数 for file_name in os.listdir(file_path): if file_name.endswith('.plt'): file_full_path = os.path.join(file_path, file_name) data = read_file(file_full_path) cluster_labels, num_clusters = perform_clustering(data, eps, min_samples) m = visualize_clusters(data, cluster_labels, num_clusters) html_file_path = file_full_path.replace('.plt', '.html') m.save(html_file_path) ``` 这将为每个 .plt 文件创建一个 HTML 文件,其中包含可视化的聚类结果。 希望这可以帮助您实现您的项目!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰露可乐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值