DM流程及常规模型、算法
关于数据挖掘的一般流程和数据处理方法。介绍以案例数据为主,分析环境多基于R。
老身聊发少年狂
这个作者很懒,什么都没留下…
展开
-
yes or no?基于词典的情感分析法
自更博以来第一次断更,现在先把文本分析的坑补上,这篇文章着重介绍情感分析的两种基本方法之一:基于词典的情感分析(下篇讲基于监督的情感分析),建模环境为R。目录1 背景与目的1.1 情感分析的应用场景1.2 情感分析的痛点2 方法与实现2.1 什么是基于词典的情感分析2.2 怎么做词典式情感分析2.2.1 数据介绍2.2.2 训练集分词2.2.3 情感分析(统计两性词汇数量并比较)2.2.5 测试集验证、结果评价与调优1 背景与目的1.1 情感分析的应用场景顾客的评价最能反映其对商品的使用感受,对此类原创 2020-08-02 11:39:44 · 1471 阅读 · 0 评论 -
数据挖掘的一般流程
数据挖掘的一般流程:数据挖掘的基础:数据没有数据,谈何挖掘,巧妇难为无米之炊;没有相对有效的数据,模型再好,挖掘出来的信息也是无用的,Garbage in, Garbage out。数据分析并不要求数据完美,本来就有很多方法比如缺失值插补、Bootstrap抽样来应对这个问题,但是数据缺陷一定是有限度的。数据挖掘的目的:业务大多时候,做数据挖掘,不仅是玩数据而已,我们希望的是它能为实际...原创 2020-03-24 11:11:51 · 444 阅读 · 0 评论 -
数据挖掘的典型商业应用
上篇文章《数据挖掘的一般流程》说到,数据挖掘实际上就是一个解决问题的过程,那它可以解决什么样问题呢?一说,有以下四类:预测eg:买或者不买,买的话买多少发现内在结构eg:样本间的相似性,分群关联性eg:啤酒与尿布模式甄别eg:异常值识别,欺诈分析这些问题几乎存在于各个领域,所以说数据挖掘的行业应用非常广泛,就其中最典型的若干商业应用,画个图供大家参考,两个维...原创 2020-03-26 21:14:44 · 981 阅读 · 0 评论 -
常用统计模型与算法
基本统计方法方差分析:研究分类变量与数值型变量的相关关系相关分析:主要研究数值变量间的线性相关关系列联分析:研究分类变量间的独立性常用模型与算法主成分分析:将多个变量规约为少数几个综合变量,新变量为原变量的线性组合因子分子:从多个变量中提取少数几个内部因子,每个原始变量均为内部因子的线性组合两者都是变量降维的重要方法,另,主成分可用于综合指标体系的建立,因子分析可用于研究变量...原创 2020-03-03 18:56:53 · 5225 阅读 · 0 评论 -
个性化推荐的几条思路
推荐系统,大家基本不会陌生。哔哩哔哩在主页给用户推荐的视频,网易云的“每日音乐推荐”,游览网页时狗皮膏药似的电商广 告,都是推荐系统的实现形式。关于个性化推荐的方法,这里大致总结一下。基于KNN的协同过滤应该是最常用的推荐算法。通常分为两种:基于用户:根据用户的相似性,给特定用户推荐与他相似的用户所购买的商品;基于商品:根据商品的相似性,给购买特定商品的用户推荐与之相似的商品。...原创 2020-03-08 16:07:06 · 713 阅读 · 0 评论