Python关联规则挖掘情侣、基友、渣男和狗。学会这个就非常牛逼了。

爬遍天下无敌手

于 2022-03-28 18:28:46 发布

阅读量1k

点赞数 2

分类专栏： Python 程序员文章标签： python

本文链接：https://blog.csdn.net/weixin_43881394/article/details/123802354

版权

本文通过分析南京某高校2019年4月的学生一卡通数据，运用关联规则挖掘技术，揭示了学生间的消费行为和社交关系，包括情侣、基友和单身狗的现象。数据包含消费、门禁和地址信息，通过时间处理、频繁项集寻找，发现某些男生与其他女生的消费时间交集，暗示潜在的关系。关联规则分析在多个领域都有广泛应用。

摘要由CSDN通过智能技术生成

本文讲解的是机器学习中一个算法的应用：关联规则分析

整个故事从一张校园卡开始。相信小伙伴们都用过校园卡，它是一种其个人身份认证、校园消费、数据共享等多功能于一体的校园信息集成与管理系统。在它里面存储着大量的数据，包含：学生消费、宿舍门禁、图书馆进出等。

本文使用的是南京某高校学生一卡通在2019年4月1-20号的消费明细数据，从统计可视化分析、关联规则分析，发现学生一卡通的使用情况和学生当中的情侣、基友、闺蜜、渣男和单身狗等有趣信息。

使用的数据集地址如下：https://github.com/Nicole456/Analysis-of-students-consumption-behavior-on-campus

import pandas as pd
import numpy as np
import datetime 
import plotly_express as px
import plotly.graph_objects as go

1、数据1：每个学生的校园卡基本信息

2、数据2：校园卡每次消费和充值的明细数据

3、数据3：门禁明细数据

In [8]:

print("df1: ", df1.shape)
print("df2: ", df2.shape)
print("df3: ", df3.shape)
df1:  (4341, 5)
df2:  (519367, 14)
df3:  (43156, 6)

 # 每列缺失值
df1.isnull().sum() 
# 每列的缺失值占比
df2.apply(lambda x : sum(x.isnull())/len(x), axis=0)

In [16]:

df5 = df1["Major"].value_counts().reset_index()

df5.columns = ["Major","Number"]
df5.head()

In [18]:

df6 = df1.groupby(["Major","Sex"])["CardNo"].count().reset_index()
df6.head()

fig = px.treemap(
    df6,
    path=[px.

关注

专栏目录