广告效果聚类分析 -------- KMeans

通过KMeans聚类分析广告数据,发现不同簇的广告效果差异显著。蓝色类广告效果不佳,红色类虽然精准但UV不足,紫色类流量高但注册率低,绿色类表现均衡且搜索量高。后续分析应关注广告渠道、方式等因素对效果的影响。
摘要由CSDN通过智能技术生成

在其他博客上看到许多人以此数据集为例做聚类分析,在借鉴了大家的方法后,根据自己对聚类算法的理解我也完成了对该数据的聚类。一下聚类方式供大家借鉴。
数据集:链接: https://pan.baidu.com/s/1sEyyLKf8wgGBr1gENOtdbA 密码: ucw5

导入所需要的库,读取数据

import pandas as pd 
import numpy as np
import scipy 
import seaborn as sns
from sklearn.cluster import KMeans
#from sklearn.cluster import SpectralClustering
from sklearn.preprocessing import MinMaxScaler,OrdinalEncoder
from sklearn import metrics
data = pd.read_csv('/Users/mac/Downloads/ad_performance.txt',delimiter='\t')

初步查看数据

data.head(5)
data.info()

处理缺失值及无用的列

data['平均停留时间'] = data['平均停留时间'].fillna(data['平均停留时间'].mean())
data = data.drop('渠道代号',axis=1)

提取出用来聚类的特征,在这个地方大多数其它博客使用全部特征进行聚类,但该做法可能并不那么正确。在实际运用中聚类分析所选取的特征应遵循’少而精‘的原则,且应围绕具体分析目的和业务需求来挑选变量。详情请参考《数据挖掘与数据化运营实战》。

num_cols = [f for f in data.columns if data[f].dtypes != 'object']
num_cols.remove('投放总时间')
num_cols

标准化数据,该步骤可以有效削减异常值得影响及加快模型运行速度。(对Kmeans非常重要)

num_data = data[num_cols]
num_data = MinMaxScaler().fit_transform(num_data)
num_data = pd.DataFrame(
  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值