R
THE ORDER
卷,学习笔记
展开
-
R ARIMA时间序列分析
1 基本概念什么是时间序列• 时间序列是按照时间顺序,按照一定的时间间隔取得的一系列观测值• 时间间隔可以是日,周,月,季度,年等等• 例子:国内生产总值,消费者物价指数,利率,汇率,股票价格时间序列的不同分类• 按研究对象数量: 一元时间序列和多元时间序列• 按序列的统计特性: 平稳时间序列和非平稳时间序列2 怎样做时间序列分析时间序列分析的目的: 选择恰当的技术和方法,建立合适的随机过程模型。由时间序列的当前值和过去值对未来值进行预测,并解释和描述外部因素和异常干扰对于时间序列的影响原创 2024-01-22 19:52:01 · 1558 阅读 · 0 评论 -
96 推荐算法 R实例
R语言:recommenderlab包的总结与应用案例1 框架包介绍推荐系统:recommenderlab包整体思路recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架。它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法recommender包的数据类型采用S4类构造。(1)评分矩阵数据接口:使用抽象的raringMatrix为评分数据提供接口。raringMatrix采用了很多类似矩阵对象的操作,如 dim(),dimnames() ,.原创 2022-04-27 10:36:57 · 546 阅读 · 0 评论 -
95 R包推荐算法实现
导语:在运行前,请务必清洗整理数据到相应的格式第一列放用户,第二列放产品,第三列放评分。1 准备工作Sys.setlocale(category = “LC_ALL”, locale = “Chinese”)clean uprm(list=ls())安装和加载R包#install.packages(“recommenderlab”)library(recommenderlab)library(plyr)读取数据集合data <- read.csv(“testCF.csv”,h原创 2022-04-27 10:01:28 · 242 阅读 · 0 评论 -
94 R-推荐算法协同过滤原理演示
1 初始准备清理数据,重命名列名######### Douban Ranking ####################### User based CF ##############Sys.setlocale(category = "LC_ALL", locale = "Chinese")### clean uprm(list=ls())library(arules)##建立模原创 2022-04-26 21:50:35 · 262 阅读 · 0 评论 -
93 R 推荐算法——关联规则
1 初始准备清理环境做准备 clean uprm(list=ls())# load package arules to find ruleslibrary(arules)2 读取文件读取文件,查看文件内容,发现需求给予的3 张表分别为,交易信息表,商品列表,商品订单表,按照PA字段将交易信息表和商品订单表连接到一起read purchase data on items leveltrans <- read.csv('purchase.csv',header = TRUE,str原创 2022-04-26 16:20:36 · 525 阅读 · 0 评论 -
92 推荐算法——相似性推荐和协同过滤
1 基于相似性的推荐流程用户偏好如何收集用户偏好如何整合大多数情况我们提取的用户行为都多于一种,如何组合这些不同的用户行为,基本上有以下两种方式:不同的行为分组一般可以分为“查看”和“购买”等等,然后基于不同的行为,计算不同的用户 / 物品相似度。加权操作根据不同行为反映用户喜好的程度将它们进行加权,得到用户对于物品的总体喜好。一般来说,显式的用户反馈比隐式的权值大,但比较稀疏,毕竟进行显示反馈的用户是少数;同时相对于“查看”,“购买”行为反映用户喜好的程度更大,比如:“关注”,“加入购物原创 2022-04-26 10:59:33 · 3419 阅读 · 0 评论 -
91 推荐算法——关联规则
推荐算法——关联规则1 推荐系统的基本概念推荐算法经典应用2 什么是推荐系统推荐系统分类推荐算法分类推荐系统的评价指标3 购物篮分析与关联规则关联规则:概念计算支持度和置信度理解支持度与置信度关联规则:提升度关联规则挖掘4 关联规则挖掘:Apriori算法Apriori算法步骤:举例Apriori算法优缺点5 FpGrowth算法步骤:举例6 关联规则的优缺点7 案例:家居用品商店1 推荐系统的基本概念推荐算法经典应用亚马逊把推荐成功地应用到购物网站,如买了X的人还买了Y,亚马逊有**20%-30%*原创 2022-04-26 10:16:20 · 3126 阅读 · 1 评论 -
90 R线性回归与logistic回归综合实战
综合应用在上二个章节,分别介绍了二中回归的用户分层情况与lift(提升度)的图形制作,本章重在综合展现,从二个维度对用户进行分层1 logistic回归建模##############################################################################################################################################################################原创 2022-04-23 14:13:22 · 258 阅读 · 0 评论 -
89 logistic回归用户画像用户响应度预测2
logistic回归篇章数据集接应上一节数据集合,本次的分析是从用户是否为高响应用户进行划分,使用logistic回归对用户进行响应度预测,得到响应的概率。线性回归,参考上一篇章1 读取和预览数据对数据进行加载读取,数据依旧是脱敏数据,file_path<-"data_response_model.csv" #change the location# read in dataoptions(stringsAsFactors = F)raw<-read.csv(file_path)原创 2022-04-22 23:12:52 · 1551 阅读 · 0 评论 -
88 R 用户画像之线性回归逻辑回归综合实战 1
用户画像之线性回归逻辑回归综合实战线性回归篇1 初期准备2 分割数据集3 lift制作4 缺失值处理5 变量确定与模型拟合6 lift图制作7 输出模型公式线性回归篇导语:本次使用的数据是网上提供的脱敏消费数据,因变量全数值类型,数据本身符合线性回归标准,初始数据选择请确保数据符合马尔可夫五大假设,再进行线性回归拟合,1 线性与参数2 不存在多重共线性3 残差的正态性4 残差的均值为05 残差的同方差性1 初期准备raw<-read.csv("data_revenue_model.c原创 2022-04-22 17:20:33 · 1720 阅读 · 0 评论 -
87 R k-means,层次聚类,EM聚类的实现
1 准备工作与预览在上一章节,博主介绍了3种聚类方式和其原理,本章主要是R代码的实现过程,代码为主,讲解为辅。详细原理参考上一章节############### R BASICS #############################rm(list=ls()) #清除R工作环境中的所有内容#set the work directory#setwd("C:/Temp/Cluster") getwd() #install.packages("ggplot2") #安装包library原创 2022-04-21 20:58:27 · 732 阅读 · 0 评论 -
86 R k-means,层次,EM聚类介绍
R k-means,层次,EM聚类1什么是客户分群什么是分群?为什么要分群?2 聚类分析方法论客户分群的算法3 样本间距离定义4 层次聚类分析方法论层次聚类概述层次聚类的步骤详解层次聚类的优缺点5 K-means聚类分析方法论K-Means聚类概述K-Means聚类步骤K-Means聚类要点K-Means聚类的优缺点K-Means聚类 vs. 层次聚类6 EM模型聚类分析方法论EM模型聚类概述EM模型聚类步骤EM模型与K-Means的关系7 实战操作1什么是客户分群什么是分群?将现有消费者群体按一定规原创 2022-04-21 18:05:52 · 1884 阅读 · 0 评论 -
85 R 银行信用卡风控评分数据分析
R 银行信用卡风控评分数据分析1 初始环境准备2数据预览与处理3 描述性统计相关包准备盖帽法描述数据分类统计4 属性分箱5 logistic建模6 打分系统7 写入csv文件1 初始环境准备读取数据与预览rm(list=ls())#setwd("./case")#install.packages("xlsx")library(openxlsx)dat<-read.xlsx("credit.xlsx",1)View(dat)2数据预览与处理数据预览,发现最大值999的异常值,偏离原创 2022-04-20 17:39:34 · 1146 阅读 · 0 评论 -
84 R CRM and Credit Risk介绍
CRM and Credit Risk介绍1 CRM2 CRM手段和目的(10C架构)3 客户信息4 Credit RiskFICO信用评分考虑因素5 信用评分卡6 商业理解7 建模流程和统计量8 WOE和IV9 生成信用评分模型10 各分类评分1 CRM客户生命周期客户生命周期(customer life cycle)的概念来自客户关系管理(CRM: Customer Relationship Management)的实践中,用来描述客户在接受不同产品或者服务的时候所要经历的阶段.包括考虑阶段,购买原创 2022-04-19 17:58:15 · 2484 阅读 · 0 评论 -
83 票房线性回归 Linear regression of film box office
1 数据统计与预览library(raster)a = read.csv("film.csv", header = T) ##读入数据,不要将字符串视为factorsummary(a) ##查看数据基本情况,检查缺失情况a = na.omit(a)原创 2022-04-18 20:00:02 · 691 阅读 · 0 评论 -
82 RSNNS包快速实现 RBF神经网络
1 RBF神经网络在统计学章节里面,博主介绍了RBF神经网络的原理,通过把线性不可分的数据,通过径向基距离转化为线性可分数据,在使用径向基函数进行分类。本章里面将使用R代码实现RBF网络rm(list=ls())install.packages("mlbench")install.packages("RSNNS")install.packages("mlbench")library(mlbench)library(RSNNS)library(ROCR)相关的包依赖此次章节承接上一章节原创 2022-04-17 16:51:58 · 865 阅读 · 0 评论 -
81 RSNNS包 BP神经网络
1 BP神经网络################BP network and RBF network of rsnns package#################################-----------------------BP neural network----------------------------------------清除环境rm(list=ls())install.packages("mlbench")install.packages("RSNNS")原创 2022-04-17 16:32:37 · 725 阅读 · 0 评论 -
80 R实现BP神经网络与参数调优
1 清理环境与准备################nnet packages single hidden layer BP neural network#####################################----------------------data loading and cleaning-----------------------------#clean up enviroment variables loading Sonar, Mines vs. Rocks da原创 2022-04-16 14:35:33 · 659 阅读 · 0 评论 -
79 神经网络——单层感知器 10行代码完成初代神经网络
神经网络——单层感知器1 感知器(Perceptron)2 研究步骤3 R 代码实现1 感知器(Perceptron)感知器(Perceptron)是一种具有单层计算单元的神经网络,只能用来解决线性可分的二分类问题。在高维空间中的模式分类相当于用一个超平面将样本分开。如果二类模式线性可分,则算法一定收敛。单层感知器的结构和功能都非常简单,在目前解决实际问题中很少被采用,但是由于其较易学习和理解,是研究其他网络的基础。2 研究步骤理解结构,类似于之前的神经元模型,用于解决二分类线性可分问题,或原创 2022-04-13 12:41:03 · 806 阅读 · 0 评论 -
78 bays朴素贝叶斯文本挖掘Chinese
1 数据准备##read and cleansms1<-readLines("sms_labelled.txt",encoding="UTF-8")2 数据预览num<-nchar(sms1)type<-substr(sms1,1,1)#the first character is email typetext<-substr(sms1,3,max(num))#the second character is blanksmsd<-data.frame(type,原创 2022-04-11 15:13:57 · 174 阅读 · 0 评论 -
77 R实现及相关文本挖掘 English participle
R实现及相关文本挖掘 English participle1 案例背景2 准备数据3 建立训练数据和测试数据4 生成词云图表5 选取频繁词为特征6 贝叶斯建模1 案例背景目前朴素贝叶斯已经成功运用于垃圾邮件的过滤,也可用于垃圾短信的过滤,但是会有额外的挑战短信文本量减少了短信口语化:缩写,新兴词汇数据:网上收集的带有标签的中英文短信数据英文数据(sms_spam.csv):5559条数据,垃圾短信标记为spam,非垃圾短信标记为ham文本处理:将数据转化成一种词袋(bag-of-words)的原创 2022-04-10 17:30:13 · 976 阅读 · 0 评论 -
76 R 实现 支持向量机 support vector machine
R 实现 支持向量机 support vector machine1 工具准备2 划分样本3 模型建立4 交叉验证5 软间隔选择6 非线性核函数参数1 工具准备R中有直接写好的包,可以直接使用install.packages("e1071")library(e1071)2 划分样本对训练集和测试集进行划分index=sample(1:nrow(iris),100)train=iris[index,]test=iris[-index,]3 模型建立用工具包中的方法建立模型model原创 2022-04-08 12:47:27 · 254 阅读 · 1 评论 -
75 支持向量机 support vector machine
支持向量机 support vector machine1 概述2 常用的机器学习方法比较3 什么是SVM? 结构风险最小化4 线性SVM线性分类器解决的问题理解 Classification Margin线性SVM求解5 Lagrange函数优化问题6 Linear SVM 小结7 处理线性不可分的情况8 软间隔小结Hard Margin v.s. Soft Margin9 非线性SVMKernel SVMs 求解Kernel trick小结: A nonlinear solver10 SVM训练算法-S原创 2022-04-07 14:38:47 · 625 阅读 · 1 评论 -
74 R决策树随机森林实现
R决策树实现1 加载包和数据集2 对数据集进行描述3设置训练集和测试集4 随机森林建模5 随机森林调参6 重要性观察1 加载包和数据集#### random forest ############install.packages('randomForest')library(randomForest) data(iris) attach(iris)table(iris$Species)class=as.factor(iris$Species)2 对数据集进行描述######描述原创 2022-04-06 14:15:38 · 319 阅读 · 0 评论 -
73 随机森林介绍
1 主要内容主要内容:• 决策树学习算法信息增益ID3、C4.5、CART• Bagging与随机森林的思想投票机制• 分类算法的评价指标ROC曲线和AUC值2 决策树学习的生成算法• 建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。• 根据不同的目标函数,建立决策树主要有一下三种算法。• ID3• C4.5• CART信息增益• 概念:当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。• 信息增益表示得知原创 2022-04-05 21:43:58 · 246 阅读 · 0 评论 -
72 R baging和boosting比较
在上一章节,博主介绍了baging和boosting的原理本章主要讲解R代码1 R准备工作#R中的adabag包均有函数实现bagging和adaboost的分类建模(另外,ipred包中的bagging()函数可以实现bagging回归)。第一题就利用adabag包实现bagging和adaboost建模,并根据预测结果选择最优模型。#a) 为了描述这两种方式,先利用全部数据建立模型:#利用boosting()(原来的adaboost.M1()函数)建立adaboost分类insta原创 2022-04-03 22:41:48 · 218 阅读 · 0 评论 -
71 Bagging & Boosting详解
1 弱学习器和强学习器弱学习器:分类不够精确强学习器:分类精确在机器学习领域中,关键的问题就是如何利用观测数据通过学习得到精确估计。目前,随着计算机硬件技术的迅猛发展,学习准确率比运算速度显得更为重要。但是,在实际应用领域中,构造一个高精度的估计几乎是不可能的。实际运用中,人们根据生产经验可以较为容易的找到弱学习方法,但是很多情况下要找到强学习方法是不容易的。有时候人们倾向于通过先找到弱学习然后把它转换为强学习的方式获取强学习方法,而Valiant证明了这种方式的可行性。怎样实现弱学习转为强学习原创 2022-04-01 22:27:32 · 2096 阅读 · 2 评论 -
70 R 决策树
1 数据分类分类的过程2 获取数据数值型数据• 病例中的各种化验数据• 空气质量监测数据描述性数据• 人事部门档案资料图片型数据• 指纹、掌纹• 自然场景图片• 很多情况下,需要将上述数据统一转换为数值型数据序列,即形成特征向量(特征提取)3 预处理为了提高分类的准确性和有效性,需要对分类所用的数据进行预处理• 去除噪声数据• 对空缺值进行处理• 数据降维(特征选择)–(PCA、LDA)主成分分析 ( Principal Component Analysis , PC原创 2022-03-31 23:02:15 · 1299 阅读 · 2 评论 -
69 R统计学相关
1 读取数据集查看均值和方差############################# Maxinum natual estimationinstall.packages("miscTools")install.packages("maxLik")library(miscTools)library(maxLik)library(openxlsx)a=read.xlsx("2.xlsx")amean(a$creddebt)var(a$creddebt)正态分布的表达式取log是原创 2022-03-30 18:33:15 · 340 阅读 · 0 评论 -
68 R 聚类分析
R 聚类分析1 常规聚类过程2 变量的相似度计算方法1 连续型属性的相似度计算方法2 二值离散型属性的相似度计算方法3 多值离散型属性的相似度计算方法4 混合类型属性的相似度计算方法3、 k平均(k-means)聚类算法4 层次聚类方法5 聚类之EM算法6 R 实践**K-means聚类**层次聚类1 常规聚类过程• 1、首先用dist()函数计算变量间距离 dist.r = dist(data, method=” “)• 其中method包括:”euclidean”, “maximum”, “man原创 2022-03-28 12:33:11 · 3121 阅读 · 3 评论 -
67 R关联分析——Apriori算法 介绍
关联分析——Apriori算法1 相关概念2 常用衡量指标2.1支持度(Support)2.2 置信度(Confidence)2.3 提升度(lift)挖掘的基本设置3 Apriori算法原理3.1算法原理3.2 规则的产生4 Apriori算法R实现过程1 相关概念2 常用衡量指标2.1支持度(Support):支持度计数除于总的事务数,表示该规则在全部交易记录中出现的比率。• 该指标是建立强关联规则的第一个门槛,衡量了所考察关联规则在“量”上的多少。• 关联规则相对于全部数据必须具有原创 2022-03-27 14:44:59 · 2825 阅读 · 0 评论 -
66 R主成分分析打分
1 读取数据5个专家给10个公司打分c1=c(76.5,81.5,76, 75.8, 71.7, 85, 79.2, 80.3, 84.4, 76.5, 70.6, 73 ,67.6 ,68.1 ,78.5 ,94 ,94 ,87.5, 89.5, 92, 90.7, 87.3, 91, 81.5, 80, 84.6, 66.9, 68.8, 64.8, 66.4, 77.5 ,73.6 ,70.9 ,69.8 ,74.8 ,57.7, 60.4, 57.4, 60.8, 65,原创 2022-03-25 18:14:13 · 187 阅读 · 0 评论 -
65 R 主成分与因子分析
主成分与因子分析1 概念2 数学模型3 相关性分析4 R主成分分析 三种方法4.1方法1 princomp方法2 princomp 未标准化方法3 用principal 函数对原数据进行分析5 主成分检验6 其它降维方法1 概念**主成分分析(PCA)**是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。**因子分析(EFA)**是一用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。2 数原创 2022-03-25 17:56:29 · 1079 阅读 · 0 评论 -
64 R 逻辑回归
逻辑回归1 应用场景2 公式3 模型估计4 读取与整理数据5 变量筛选5.1集中度和分类数筛选5.2 缺失值分析5.3 频率筛选6 对模型进行样本内外预测7ROC曲线检验模型1 应用场景逻辑回归被广泛应用在目标变量是二值变量的场合 (0, 1)2 公式– P(y=1|x) 表示 y = 1的概率– 从而得到 y = 1 对 y = 0 概率的比值3 模型估计– 极大似然估计模型阐释/评估– 一个解释变量的阐释图4 读取与整理数据整理数据格式,将数值变量和因子变量分类data0=r原创 2022-03-25 13:35:44 · 568 阅读 · 0 评论 -
63 R 多元线性回归
#影响收入的因素多元线性回归 Multiple linear regression of fators affecting income1,读取数据集 Read datasetlibrary(openxlsx)dataO=read.xlsx("2.xlsx")data0=na.omit(dataO)2 根据业务排除不相关的自变量 Exclude irrelevant variables according to businessdata1=data0[,4:9]class(data)3原创 2022-03-24 12:35:13 · 919 阅读 · 0 评论 -
62 R代码一元线性回归
这里写目录标题一级目录二级目录三级目录1 数据预览2 y值的确定以及偏态数据的处理3 数据整理4 绘图参数5 相关分析6 构建模型一级目录二级目录三级目录1 数据预览当我们拿到一分新数据的时候先预览下数据的情况,这里先以一份收入相关数据简单演示下cre=read.csv("creditcard_exp.csv")names(cre)str(cre)summary(cre)2 y值的确定以及偏态数据的处理s=hist(cre$Income,freq = F)我们关注的收入指标比较原创 2022-03-22 22:58:09 · 777 阅读 · 1 评论 -
61 R 一元线性回归详细介绍
一元线性回归1 、回归分析介绍**1.2回归模型****1.3 线性回归模型**1.4模型变换1.5模型设定• 一元回归模型• 多元回归模型2 拟合方法3 一元线性回归模型3.1 最小二乘法3.2 最小二乘回归直线4 模型条件5 假设检验5.1 模型5.2 前提5.3 t 检验5.4检验公式**6 预测**6.1 预测y6.2 预测 𝜇06.3 预测区间7 评估8 模型误差9 决定系数将在下一节使用R全过程实现一元线性回归1 、回归分析介绍##1.1 回归分析是研究变量间函数关系的一种方法。变量之间原创 2022-03-21 21:55:43 · 1318 阅读 · 1 评论 -
60 R 营销响应率预测 logistic回归
########################################### Case Study: Logistic Model#This code mainly contains 8 parts:#Part1: get familiar with your data #Part2: split into three data#Part3: Profiling:(see worksheet 'Profile' in Excel)#Part4: Means(see worksheet '原创 2022-03-21 20:13:54 · 300 阅读 · 0 评论 -
59 R kmeans,层次,EM聚类
############### R BASICS #############################rm(list=ls()) #清除R工作环境中的所有内容#set the work directory#setwd("C:/Temp/Cluster") getwd() #install.packages("ggplot2") #安装包library(ggplot2) #加载包##############Segmentation code ##################原创 2022-03-20 19:26:28 · 567 阅读 · 1 评论 -
58 R 票房线性回归 Linear regression of film box office
rm(list=ls()) ##清除当前工作变量#setwd("D:/data/R")##指定工作目录路径install.packages("raster")library(raster)a = read.csv("film.csv", header = T) ##读入数据,不要将字符串视为factorsummary(a)原创 2022-03-19 17:01:55 · 505 阅读 · 1 评论