自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 主题内容挖掘(潜在狄利克雷分配)

说明:文章主要对主题内容挖掘的部分问题的提出,并提供自己的意见,仅供参考案例来源: 宋天龙 - 《python数据分析与数据化运营》案例背景: 从一堆文件中建立相应主题模型,然后得到不同模型的主题特点,通过对新文本数据集的预测得到其可能的主题分类。主要应用技术:中文分词,TF-IDF向量空间模型转换,字符串全角转半角,XML文件内容解析,潜在狄利克雷分配模型。主要库:tarfile,os,jieba,gensim,bs4文件内容格式:<doc><url>页面URL&lt

2021-06-17 22:22:06 519 1

原创 机器学习赛事:快来一起挖掘幸福感

比赛题目赛题使用公开数据的问卷调查结果,选取其中多组变量,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等),来预测其对幸福感的评价。数据来源:赛题使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目。赛题感谢此机构及其人员提供数据协助。中国综合社会调查为多阶分层抽样的截面面访调查。外部数据:赛题以数据挖掘和分析为出发点,不限制外部数据的使用,比如宏观经济指标、政府再分配政

2021-06-11 11:52:28 357 1

原创 RFM的精细化客户管理笔记总结

业务基本背景:业务部门希望不仅能对用户做分组,还能对每个组的用户特征概括总结出来,便于后续精细化管理,且根据不同群体做定制化或者差异化的营销和关怀。分析:交付结果看,需要导出业务部门需要的分析结果为EXCEL文件,便于后续分析加工使用;RFM的结果还可能用于其他模型的建模使用,需要输出为本地文件并写入数据库。了解到业务愿意投入较多得资源为客户服务,所以可以对客户管理进行细分。思路:基于用户分群需求,计划将RFM的3个维度分别做3个区间的离散化得到3x3x3个分类结果, 输出数据为为本地文件并

2021-06-06 12:22:34 392

原创 遇到的TimeGrouper调用不了

对TimeGrouper调用出错最近学习遇到这个AttributeError: module ‘pandas’ has no attribute ‘TimeGrouper’可能是书的版本老了吧,我恁是用不了pd.TimeGrouper实现对值的相同重新采样于是就强行导入了一波from pandas.core import resample然后利用resample.TimeGrouper( )调用就行了当然也有各位大佬的文件改法,我就懒得改了,直接照着导入,能用就行。...

2020-12-05 19:10:01 2875 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除