![](https://img-blog.csdnimg.cn/20190918140053667.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析与建模
涉及十余种最常见的统计分析模型,用R或者Modeler实现从数据到模型再到结论的全过程。
目前更新内容主要是电商订单分析与用户行为分析。
老身聊发少年狂
这个作者很懒,什么都没留下…
展开
-
yes or no?基于词典的情感分析法
自更博以来第一次断更,现在先把文本分析的坑补上,这篇文章着重介绍情感分析的两种基本方法之一:基于词典的情感分析(下篇讲基于监督的情感分析),建模环境为R。目录1 背景与目的1.1 情感分析的应用场景1.2 情感分析的痛点2 方法与实现2.1 什么是基于词典的情感分析2.2 怎么做词典式情感分析2.2.1 数据介绍2.2.2 训练集分词2.2.3 情感分析(统计两性词汇数量并比较)2.2.5 测试集验证、结果评价与调优1 背景与目的1.1 情感分析的应用场景顾客的评价最能反映其对商品的使用感受,对此类原创 2020-08-02 11:39:44 · 1187 阅读 · 0 评论 -
数据挖掘在舆情分析中的应用,我们是怎么看《后浪》和《非浪》的(一)
五四期间,B站推出宣传片《后浪》,引发了热烈的讨论。很多观众认为,视频中所展现的光鲜亮丽的“后浪”生活,并不能代表时下年轻人负重苦逼的真实状态,明明是最倒霉最内卷的一代,却被认为是最有选择最有机会的一代。接下来几篇文章,我将从数据分析的角度来挖掘这一事件,所有数据均爬自于小破站涉及两个视频:《后浪》和《非浪》具体包括视频评论、弹幕、用户信息等分析方法主要是非文本分析(比如评论量趋势,用户属性分布、俩视频信息对比等)文本分析(词频统计,主题聚类,情感分析等)用到的工具有:Python原创 2020-05-16 22:37:27 · 859 阅读 · 0 评论 -
销售数据分析——tableau仪表盘示例
前面对于用户的研究,多是基于数据挖掘的角度,利用模型或算法,尝试挖掘数据更深层次的信息。这篇文章将从数据分析的另一个视角,以指标聚合计算、图形可视化等非建模的方式,来描述一份数据,并以仪表盘的形式呈现出来。源数据是一份零售电商销售明细,跨度 3 个月, items 数 25 万+,涉及10681名用户,10780件商品。主要工具为tableau,考虑从销售情况、订单周期、用户价值、商品价值、...原创 2020-03-10 12:46:11 · 6858 阅读 · 5 评论 -
基于协同过滤的商品个性化推荐
上次在用回归模型研究豆瓣短评top500的代表性时,爬了一份用户影视评分数据,今天结合协同过滤算法,做一个简易的“推荐系统”,将特定商品——影视作品推荐给潜在感兴趣的参与打分的用户。数据:包含24594条记录,涉及54部影视作品和19317算法与R语言包:协同过滤算法、recommenderlab具体步骤:数据预处理(主要是转化为稀疏矩阵)——推荐建模(topN;评分状况)+ 结果分析...原创 2020-03-09 11:45:35 · 1561 阅读 · 0 评论 -
“啤酒—尿布”的目标群体定位分析
之前写过一篇关于商品联合销售的文章,借助于apriori算法做关联分析,成功地从订单数据中挖掘到类似于“啤酒——尿布”的频繁模式。现在我们就来解决另一个问题:定位商品组合的目标客户,即为“啤酒—尿布”寻找对应的“奶爸群体”,以实现个性化推荐。案例来自IBM SPSS Modeler官网,包括两份数据,订单数据+用户属性数据。模型为决策树,通过C5.0 规则归纳,描绘已标识产品组的购买者的特征。...原创 2020-03-28 22:19:26 · 448 阅读 · 0 评论 -
基于apriori算法的商品关联分析,寻找类“啤酒-尿布”模式
先给大家介绍一个啤酒与尿布的故事。沃尔玛在观察消费者购物行为时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒,于是尝试推出将啤酒和尿布摆在一起的促销手段,结果尿布和啤酒的销量都大幅增加。做着类似业务的医药电商受到启发,是否也可以从自己的历史订单中提取到类似于“啤酒-尿布”的频繁模式,进行联合销售,并找到对应的“奶爸群体”,实现个性化推荐呢?今天我们来解决第一个问题,利用apriori算...原创 2020-03-02 20:12:23 · 2060 阅读 · 2 评论 -
基于决策树的用户群规则归纳
上篇文章通过聚类分析将全体客户群分4个类别,并保存了每一位用户所对应的类别。现在有几个新问题?1、特点描述太模糊,对各组的R、F、M比较是相对的,比如R有高频低频之说,但并没有给出具体的分割点。2、不可外延,现有客户的类别是给了,但若新来一份客户名单,业务人员又得抓瞎。为解决这个问题,我们引入决策树模型,为各个类别建立非技术人员也能读懂并使用的具体规则。一、源数据用户id+所属类别...原创 2020-03-01 15:57:25 · 895 阅读 · 0 评论 -
基于RFM模型与kmeans聚类的用户细分
前面主要是关于客户风险的分析,本文换一个角度,对客户价值做一点研究。用户与商品(or服务)是企业最重要的资产,当用户数量增长到一个比较庞大的规模,如何有效地管理是需要关注的问题,而用户细分、差异化运营正是是一个可考虑的方向。将相似的用户归类,给每一个类别贴上“标贴”,然后针对各类的特征制定差异化策略。核心流程主要包含以下模块:用户分群,要求不重不漏,群内差异较小,群间差异较大;对上一步得...原创 2020-02-29 12:51:54 · 3753 阅读 · 0 评论 -
构建信用风险综合评价体系——基于主成分与因子分析
多维数据在建模过程中,会出现很多问题,在基于logit模型的客户信用风险预测一文中,有谈到关于变量降维的几种方法:(1)基于经验,简单但主观性很强;(2)基于变量的统计显著性,模型上可靠但未必实务上可用;(3)变量规约,即用因子分析、主成分分析等方法将多个变量分解或合成为少数几个聚合因子。之前用的是(1)和(2),这篇文章讨论第三种:主成分分析与因子分析。首先解决两个问题。什么是主成分分析与...原创 2020-02-27 12:53:38 · 2333 阅读 · 1 评论 -
客户信用风险预测——基于logit模型
在上一篇文章中,介绍了多元线性回归,该模型一般只是用来衡量数值型变量间的线性关系,当解释变量或者被解释变量为分类型变量时,可能就不再适用,需要引入新的方法,比如设置虚拟变量和选择其它分类模型。接下来就介绍一个简单的二元选择模型——logit回归,此时被解释变量是分类变量,取值为0或者1。引例:信用风险识别,用logit模型对客户的违约行为进行预测。...原创 2020-01-23 22:34:56 · 4893 阅读 · 3 评论 -
数据探索与可视化(R的DataExplorer包)
这篇文章将介绍在完整数据挖掘过程中的三次可视化里提到的第一次可视化,没有人会在拿到数据的时候就马上去建模,最起码,我们得知道拿到的数据是什么样子,【数据探索】其实就是在给源数据“画初印像”。数据探索性分析主要包括以下内容:维度:行列数、变量名称取值:缺失值、异常值属性:数值or字符,离散or连续分布:偏度、是否正态、统计量以一份订单明细为例,在R里进行数据探索分析。librar...原创 2020-02-27 21:05:25 · 1829 阅读 · 0 评论 -
数据挖掘过程中的三次可视化
先说为什么要用图?其一,图形往往能比文字传达更多的信息,此外,作为数据分析报告的阅读者,可能对我们的模型数据并没有兴趣,更吸引他的可能是最后的和图和结论。再说什么时候要用图?通常来说,在一次数据挖掘过程中,可视化有三次。原创 2020-02-26 20:25:14 · 507 阅读 · 0 评论 -
关于数据建模、可视化的“傻瓜软件”
谈到统计,有两种看法很多。其一,数数的,比如指标计算、报表统计这些,好像不需要专业人士,会点execl的就能做;其二,大数据,写代码搞计算机的,但实际上它跟IT的区别也不小。这两种看法都比较极端,但主流的确如此,市场上提供的要不是极low的“数据文职”,要不是招聘要求天花乱坠的全能岗位,跟普通人比被质疑专业度,跟IT比代码能力又差了点,两头不落好。但也别妄自菲薄,统计的价值是一直存在且独一无二...原创 2020-02-02 15:17:21 · 1441 阅读 · 0 评论