自律的萱小主-CSDN博客

原创从当前一期到到未来几期取值都为1怎么实现？【python数据分析】

金融数据处理，已知事件发生时间，将发生当期和未来n期取值为1，其他取值0

2023-08-09 22:01:30 257

0、基本概念A. 项集项（Item）：在一篮子商品中的一件消费品即为一项；项集：若干项的集合为项集，如{啤酒，尿布}是一个二元项集。B. 关联规则 X=>YX为先决条件，Y为关联结果，表示数据内隐含的关联性。关联性强度如何，由三个概念——支持度、置信度、提升度来控制和评价。1）支持度（Support）：项集中X和Y同时出现的概率。2）置信度（Confidence）：先决条件X发生的条件下，关联结果Y发生的概率。3）提升度（lift）：含有X的条件下同时含有Y的可能性与没有X的条件下同

2022-04-30 16:51:17 1408

原创用R语言画文本分析词频词云

设置存储目录setwd("C:/Users/swift/Desktop")读取数据df<-read.csv("政府工作报告.csv",header=FALSE)# 把全部政府工作报告放在第一行第一列的格子里安装jieba分词包install.packages("jiebaR")library(jiebaR)删掉中文停用词wk = worker(stop_word='中文停用词.txt')seg <-wk[gsub("\\d","",df[1,])] # 去除数字，后分词

2022-03-11 20:07:38 1171

原创 Lesson 1: 数学计算符

符号功能t()转置matrix(4:6, nrow=1, ncol=3)矩阵crossprod(x,y)内积tcrossprod(x,y)外积A*B矩阵对应元素相乘solve(A)逆矩阵eigen(H)$values特征值eigen(H)$vectors特征向量

2021-12-28 00:39:58 330

原创作业二：R语言画gamma分布图

################gamma分布图######################a<-c(1,5,10)b<-c(0.5,1,2)par(mfrow=c(1,3))for(i in 1:3){plot(seq(0,(3.8a[i]),0.3),dgamma(seq(0,(3.8a[i]),0.3),a[i],1/b[1]),main=substitute(Gamma(a,b),list(a=a[i])), ylab=“P”,xlab=“x”,type=“l”, col=“b

2021-12-28 00:39:20 2478

原创应用统计分析作业四：数据框中因子型数据的处理

library(foreign)df<-read.spss("meph.sav ",to.data.frame=TRUE)###1. 将white与others合并为一个变量attach(df)contrasts(df$RACE1)# 语句只能用于factor(因子型)levels(df$RACE1) <- list("WHITE"=c("others","white"),"BLACK"="Black","NATIVE"="Native","ASIAN"="Asian")contr

2021-12-28 00:37:55 318

原创 R语言作业一：矩估计、极大似然估计、拟合、对数正态分布、泊松分布、负二项分布

一、矩估计、极大似然估计、拟合、对数正态分布##导入数据setwd("C:/Users/chang/Documents/SRM-PA/R简介/上课练习数据集")healthexpend <- read.csv(file="HealthExpend.csv",header=T)##取其中EXPENDOP>0的数据，记为EXPENDOPattach(healthexpend)EXPENDOP<- healthexpend$EXPENDOP[EXPENDOP>0]EXPEN

2021-12-26 14:01:43 7398

原创 Lesson 10 : 主成分分析和因子分析

一、主成分分析1、查看数据是否完整library(psych)complete.cases(USJudgeRatings)2、判断主成分个数: 碎石图fa.parallel(USJudgeRatings[,-1],fa="pc",n.iter=100,show.legend=F,main="Picture")# n.iter模拟100个随机数据矩阵，生成虚线# fa=主成分（pc），因子（fa），两个（both）abline(h=1,lty=1,col="black")# 超过虚线或ab

2021-12-25 19:52:05 2058

原创 Lesson 11：聚类分析

缩放数据data(nutrient, package=“flexclust”)df1 <- apply(nutrient, 2, function(x){(x-mean(x))/sd(x)})df2 <- apply(nutrient, 2, function(x){x/max(x)})df3 <- apply(nutrient, 2, function(x){(x-mean(x))/mad(x)})MAD(X)=median(abs(Xi−median(X)))...

2021-12-25 16:24:31 749

原创 Lesson 9 : Logit 回归

一、广义线性模型glm(formula, family=binomial(link="logit"), data=df)分布族默认的连接函数binomiallink = “logit”gaussianlink = “identity”gammalink = “inverse”二、Logit 回归1、步骤Step 1 定义因变量把出轨次数转为是否出轨（0，1），再转化成名义型因子才可以作为Logit回归的因变量。data(Affairs, pack

2021-12-24 13:32:36 920

原创 Lesson 8：回归

一、回归1、基准模型fit<-lm(Y~X, data)交互项fit<-lm(Y ~ X1:X2+I(X2^2)+X1+X2+X3, data)展示交互项的结果install.packages("effects")library(effects)fit1 <- lm(EXPENDOP ~ AGE:GENDER+AGE+GENDER,data=df)plot(effect("AGE:GENDER", fit1,, list(AGE=c(22,32,42))), mult

2021-12-23 21:55:38 721

原创 Lesson 7：绘制统计图

准备：绘图的开始与结束语句dev.new() # 打开一个新窗口，这样就不会覆盖掉原来的图png("regress.png") # 填写设置参数的代码，见1# 填写绘图的代码，见2-6dev.off() # 关闭这个窗口1、设置参数设置图片内的线条、点opar <- par(no.readonly=TRUE)# 以生成可供修改的图形参数列表par(lty=2, pch=17, lwd=2, cex=2, col="red",bg="blue") 参数含义lt

2021-12-23 13:45:44 753

原创 Lesson6: 列联表与频数表、独立性检验

1、一维列联表展示年龄的所有取值table(df$AGE) 比例：展示每个年龄的分布比例prop.table(table(df$AGE))2、二维列联表计数：每个人种–年龄对应的人数t1 <- table(df$AGE, df$RACE1)计数：按行/列方向求和margin.table(t1, 1) # 1表示按行加和，即每个年龄的人数margin.table(t1, 2) # 2表示按列加和，即每个人种的人数比例prop.table(t1)每行/列中各部分所占比例

2021-12-21 21:58:36 621

原创 Lesson 5: 函数

1、计算长度和维度length(x) # 长度dim(x) # 长宽维度注：如果是2 * 2矩阵，length返回4；``返回长宽，2 * 2矩阵，dim返回2 22、分割连续型变量cut(x, n)将连续型变量 x 分割为有着 n 个水平的因子3、参数：创建有序型因子ordered_result = TRUE 4、给单个变量排序sort(x,decreasing=TRUE) 5、apply()数组按行求均值，如果按列求均值，改为margin=0apply(df, marg

2021-12-21 20:33:49 133

原创 Lesson4: 描述性统计与概率函数

1、统计函数均值mean方差var中位数median开平方sqrt绝对值abs最大值max最小值min分位数quantile(w, probs=0.25)标准化scale(x)2、计算符号x除以y求余数2%%3(输出2)整除求商2%/%3(输出0)不小于3.8的最小整数ceiling(3.8),输出4不大于3.8的最大整数floor(3.8), 输出3保留几位小数round(

2021-12-20 19:30:37 320

原创 Lesson3: DataFrame中的数据处理操作

1、根据条件筛选行和列既筛选行又筛选列names(df) # 快速查看所有变量名，方便复制df1 <- subset(df, EXPENOD>0, select<-c("AGE","ANYLIMIT","COLLEGE","HIGHSCH", "GENDER"))只筛选行df1 <- subset(df,ANYLIMIT==1)# 或者df1 <- df[df$ANYLIMIT==1,]只筛选列df1 <- subset(df,select=AGE:

2021-12-20 12:07:11 289

原创 Lesson 2: 导入导出数据

导入导出数据1、读取xlsx（如果安装包下载不成功，就转成csv）install.packages("openxlsx")library("openxlsx")df <- read.xlsx("name.xlsx",header=TRUE)导出xlsxwrite.xlsx(df,"123.xlsx")2、读取txtdf <- read.table('student1.txt',header=TRUE)导出txtwrite.table(df,"test.txt")3、

2021-12-20 11:34:03 224

原创《R语言实战》第三章画图——学习笔记

3.1 创建并保存一个图片dev.new() # 打开一个新窗口，这样就不会覆盖掉原来的图png("regress.png") attach(df) plot(AGE, COUNTOP) # 画散点图 abline(lm(COUNTOP~AGE)) # 添加最优拟合回归线 title("Regression of COUNTOP on AGE") # 设置标题 detach(df)dev.off() # 关闭这个窗口3.2 plot函数plot(x, y, type="b")

2021-11-06 22:06:19 500

原创《R语言实战》第二章基本语法——学习笔记

第二章创建数据集2.2数据结构2.2.1向量a <- c(1, 2, 3, 4)a <- c(1:4) # R语言为左闭右闭向量类似于Python中的一维数组array，放数值型、字符型和逻辑型，同一向量中放同一数据类型。2.2.2矩阵num <- c(1,2,3,4) # 待填元素rnames <- c("R1", "R2")#行名cnames <- c("C1", "C2")#列名y <- matrix(num, nrow=2, ncol=2,

2021-10-26 16:37:31 284