教育平台线上课程用户行为分析

教育平台线上课程用户行为分析

一. 分析的背景和目的

因为新冠疫情的影响,越来越多的教育平台开启了线上课程。线上课程相较于传统的线下课程,不论时间还是地点都更加的灵活,人们开始更加倾向于选择线上学习。但是现在还是线上课程的发展阶段,还有很多方面需要加强。本报告通过两年某线上教育平台的数据,分析用户行为,为平台制定综合性的课程推荐策略。数据来源于2020年泰迪杯个人技能赛数据,为某平台真实数据。

二. 分析维度(目的)

1. 活跃用户分析
  • 活跃用户数
  • 流失率
2. 用户分布分析
  • 各省(城市)人数分布
  • 学习时长/选课数量对比
3. 线上课程推荐(受欢迎程度)
  • 选课最多/最少
  • 收费/免费课程分析
  • 课程价格对受欢迎程度的影响

三. 数据预处理

1. 数据构成

数据集一共有三个表格,分别为login, users, study_information。
login主要有用户的登录时间以及登录地区,users主要有注册时间,最近登录时间,学习时长等,study_information主要有加入课程时间,学习进度,价钱等。

describe login

date

describe study_information

date

describe users

date

2. 数据清洗
  • 缺失值

数据存在的缺失值并不是很多,以下的列存在缺失值

recently_logged(最近登录时间)存在缺失值:5376
user_id (用户ID)存在缺失值:67
school(学校)存在缺失值:33412

其中最近登录时间和用户ID无法进行自主填充,而且没有超过总数据的20%,采取删除操作。因为后面的分析并不需要学校的信息,所以对于学校的缺失值不采取措施。学校的大量缺失值可能因为填写个人信息时不属于必填的信息,所以会造成大量缺失。

#查询userID是否为空值(null)
select count(*)
from users
where user_id is null;

#去除users表格缺失值
select *
from users
where recently_logged != '--' and user_id is not null
  • 重复值

其中只有users表格是记录用户信息的,每个用户只有一次记录,所以通过对比user_id,发现有3条重复记录。其余的两个表格为登录和学习表格,会存在一个用户多条记录。

#检查数据中知否包含重复值
select
       user_id,
       register_time,
       recently_logged,
       count(user_id) as count_id
from users
group by user_id,register_time,recently_logged
hav
  • 0
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值