zhenglit-CSDN博客

转载机器学习评估指标汇总

原文：https://www.cnblogs.com/zongfa/p/9431807.html在使用机器学习算法过程中，针对不同的问题需要不用的模型评估标准，这里统一汇总。主要以两大类分类与回归分别阐述。一、分类问题1、混淆矩阵混淆矩阵是监督学习中的一种可视化工具，主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别，每一列代表实例的真实类别。　　　　　　真正(True Positive , TP)：被模型预测为正的正样本。假正(False Positiv

2021-03-10 16:26:31 923

转载 CausalImpact

原文地址：http://google.github.io/CausalImpact/CausalImpact.html1. Installing the package 2. Creating an example dataset 3. Running an analysis 4. Plotting the results 5. Working with dates and times 6. Printing a summary table 7. Adjusting the model 8

2021-03-03 16:42:08 2785 3

转载使用R进行倾向得分匹配（PSM）

【译文】使用R进行倾向得分匹配（PSM）作者 Norbert Köhler译者钱亦欣根据维基百科，倾向得分匹配（PSM）是一种用来评估处置效应的统计方法。广义说来，它将样本根据其特性分类，而不同类样本间的差异就可以看作处置效应的无偏估计。因此，PSM不仅仅是随机试验的一种替代方法，它也是流行病研究中进行样本比较的重要方法之一。让我们举个栗子：与健康相关的生活质量（HRQOL）被认为是癌症治疗的重要结果之一。对癌症患者而言，最常用的HRQOL测度是通过欧洲癌症研究与治疗中心的调查问卷计算得出

2021-03-02 20:24:48 16453 4

原创关于AB实验样本累积的记录

当达到最小样本量的时候，我们能否再积累两天样本，使得P值发生改变，然后选择改变后的P值作为我们的结论？不能！背景：在做AB实验的时候我们根据MDE计算出了最小样本量，根据最小样本量我们规划了一个7天的实验，但是7天后我们评估发现p-value>0.05，这个时候我们能否再积累两天样本使得p-value<0.05的时候再做结论？不能，我们是“在保证犯第一类错误的概率<0.05的前提下，尽量的使得power越大越好”，虽然继续积累样本量可以保证power越来越大，但是我们就没办法保证

2021-01-14 21:07:34 487

原创横坐标分类纵坐标数值画折线图

横坐标是分类/日期变量，纵坐标是数值变量，画折线图例1：> datedata date value class1 2020-01-01 0.39121506 a2 2020-01-02 0.80494396 a3 2020-01-03 0.58351189 a4 2020-01-04 0.05941928 a5 2020-01-05 0.07531910 a6 2020-01-06 0.80780271

2020-06-11 23:24:21 4041

原创 2020-06-11

横坐标是分类/日期变量，纵坐标是数值变量，画折线图例1：datedatadate value class1 2020-01-01 0.39121506 a2 2020-01-02 0.80494396 a3 2020-01-03 0.58351189 a4 2020-01-04 0.05941928 a5 2020-01-05 0.07531910 a6 2020-01-06 0.80780271 a7 2020-

2020-06-11 18:23:45 229

原创 R语言时间序列分析

时间序列白噪声序列终止分析，无信息可提取非白噪声序列平稳序列 AR/MA/ARMA 非平稳序列 ARIMA,实际中最常见当拿到一个时间序列的时候，首先分析该时间序列的类型，不同类型的序列有不同的处理方式。本文包含以下几个部分：1、时间序列数据准备 2、时间序列平稳性检验 3、拟合ARIMA模型 4、ARIMA模型的检验诊断 5、用ARIMA模型进行预测 6、预测效果的评估一、时间序列数据准备> stodata &l

2020-05-23 00:29:48 19459 2

原创 AB实验中最小样本量的计算

一、随机对照试验（两组均值）比较的样本量计算方法二、随机对照试验（两组率）比较的样本量计算方法本文来自：医学论文与统计分析，摘抄用于记录。

2020-05-19 18:54:37 25285 2

原创 tidyverse数据处理

tidyverse出自于R大神Hadley Wickham之手，他是Rstudio首席科学家，也是ggplot2的作者。tidyverse就是他将自己所写的包整理成了一整套数据处理的方法，包括ggplot2，dplyr，tidyr，readr，purrr，tibble，stringr, forcats。tidyverse主要的经常用的函数工具：1.管道符%>%> iris %>% head(,3) Sepal.Length Sepal.Width Petal.Length P

2020-05-17 20:26:12 3233

原创预测2019-2020赛季常规赛MVP

受新冠肺炎影响，2019-2020赛季NBA已经处于停摆状态，是否以及何时能复赛还不清楚。相关的各项评选如常规赛MVP、最佳阵容、最佳防守等也由于疫情暂停了。按照往年的赛程节奏，此时也应该进入常规赛收官阶段了。本文利用历史数据和本赛季常规赛已发生数据来预测本赛季（2019-2020赛季）的常规赛MVP。NBA常规赛MVP是NBA所有个人荣誉中的最高荣誉。像乔丹、科比、詹姆斯、库里等超级巨星曾经到获得过常规赛MVP。一、数据和方法数据：13-14赛季、14-15赛季、15-16赛季、16-17

2020-05-10 19:45:27 3800 4

原创预测NBA全明星

以下内容为zhenglit原创，供大家学习研究，转载请声明来源。一、背景和数据NBA每年都会举办一次全明星赛，用于回馈球迷和社会。每一个篮球明星都是经过一定的票选选出来的，虽然选法不尽相同，但总体上一个原则：越优秀的运动员越可能被选上。怎么定义优秀？一般从运动员的得分、防守、球队胜利等方面来评价（当然还有可能基于运动员当年的市场火热程度/是不是招黑等），每个投票者（球迷或教练）心里都会有一个...

2020-03-15 22:45:08 826

原创 AB测试的统计学原理

随笔记一些：1. 大数定理说明频率的极限是概率；中心极限定理说明不论总体服从何种分布，从中抽取n个样本，则这n个样本的总和或平均数是一个随机变量，当n足够大时，这n个样本的总和或平均数服从正态分布。假设检验的所有原理都依赖于中心极限定理。2. AB测试中的假设检验都用双侧检验，这样比较容易记忆和处理，即原假设都设置为等号，即AB策略没有差异。3. AB测试中的假设检验一般用Ttest，...

2020-02-29 19:44:40 3517

转载 T检验和F检验

1，T检验和F检验的由来一般而言，为了确定从样本(sample)统计结果推论至总体时所犯错的概率，我们会利用统计学家所开发的一些统计方法，进行统计检定。通过把所得到的统计检定值，与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较，我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现，出现这结果的机率很少，亦即是说，是在机会很少...

2019-05-20 21:00:51 3806

转载 Rggplot2

文章转载自：https://www.cnblogs.com/nxld/p/6059603.html分析数据要做的第一件事情，就是观察它。对于每个变量，哪些值是最常见的？值域是大是小？是否有异常观测？ggplot2图形之基本语法：ggplot2的核心理念是将绘图与数据分离，数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数，使其更具灵活...

2019-03-11 17:49:51 1464

转载 hive函数大全

Hive Operators and User-Defined Functions (UDFs)Hive Operators and User-Defined Functions (UDFs) Built-in Operators Operators Precedences Relational Operators Arithmetic Operators L...

2019-03-11 16:49:17 864

原创 R语言（ggplot2）数据可视化（一）——ggplot2的基本语法

使用ggplot2包可以简单自由地画出精美的统计图，甚至叫不出名字的图。本系列记录ggplot2的使用方法。一、ggplot2的语法模式就不再讲gg（grammar of graphic）的语法概念细节了（包括映射、属性啥的），直接举例然后潜移默化的理解可能更容易。ggplot2的使用有一个统一的语法，采用图层叠加的方式，一般使用ggplot2会有以下两种习惯：（1）ggplot(d...

2019-03-11 15:43:46 2970

原创 SQL 统计日环比、周同比

date gmv 2019-01-01 115.7 2019-01-02 180.1 2019-01-03 296.8 2019-01-04 706.0 2019-01-05 703.5 2019-01-06 527.3 2019-01-07 462.9 2019-01-08 270.1 2019-01-09...

2019-03-01 19:12:41 20415

原创 SQL 统计连续出现的次数

问题：一个表记录了某论坛会员的发贴情况，存储了会员uid ，发贴时间post_time和内容content。找出连续发贴三次及以上的会员。uid post_time content 1 2019-03-01 00:00:00 a 2 2019-03-01 00:00:01 b 3 2019-03-01 00:00:02 c ...

2019-03-01 18:04:19 21148 13

转载 R语言之逻辑回归

本文转载自https://www.cnblogs.com/Hyacinth-Yuan/p/7905855.html本文主要将逻辑回归的实现，模型的检验等参考博文http://blog.csdn.net/tiaaaaa/article/details/58116346;http://blog.csdn.net/ai_vivi/article/details/438366411.测试集和训练...

2019-02-15 18:46:24 38339 2

原创 sample函数随机抽取训练集和测试集

ind=sample(2,nrow(dataset),replace=TRUE,prob=c(0.7,0.3))data_train=dataset[ind==1,]data_test=dataset[ind==2,]R语言中的sample()函数是用于随机采样的函数。函数模型：sample(x, size, replace = FALSE, prob = NULL)x参数为一个向...

2019-02-15 18:33:01 7095

转载 R语言画雷达图

library(fmsb)maxmin <- data.frame(total=c(5,1),phys=c(15,3),psycho=c(3,0),social=c(5,1),env=c(5,1))# data for radarchart function version 1 series, minimum value must be omitted from above....

2018-12-27 18:13:02 9221

转载 R语言假设检验实例

一、正态分布参数检验例1. 某种原件的寿命X（以小时计）服从正态分布N（μ, σ)其中μ, σ2均未知。现测得16只元件的寿命如下： 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于255小时？...

2018-12-27 15:01:14 6960 3

原创根据日期判断星期几

pmod(datediff(substr(a_birth_time,1,10),'2010-01-03'),7) in (6,0) then '周末' else '周中' end as date_type

2018-12-25 15:07:03 519

原创 R爬虫：链家租房数据爬取

单一网页尝试lianjia_url <- "https://bj.lianjia.com/zufang/pg1/"lianjia_web<-read_html(lianjia_url,encoding = "UTF-8")where <- html_nodes(lianjia_web,".where")%>%html_text()other <- html_...

2018-12-02 17:50:59 1509 1

原创关于NBA所有数据的爬虫（rvest）

--需要爬虫的原因是网站一次性最多下载150行数据，如果手工下载的话，需要下载复制5190次--准备工作library("rvest")library("xml2")--单一网页尝试url <- "http://www.stat-nba.com/query.php?page=0&QueryType=game&GameType=season&order=...

2018-12-01 20:59:22 744

原创关于北京摇号概率的相关计算

以下内容为zhenglit原创，转载请声明来源。让我们来讨论下，每次摇号你是怎么被当成分母的。今天北京有2996799人都同时收到了同一条短信，不是降温提醒，但足以让人心凉：“很遗憾，该编码本次摇号未中签。温馨提示：北京摇号资格有效期为6个月，满足摇号条件，过期将自动顺延6个月，可登录官网查看。”北京自2010年12月23日起开始施行小客车摇号制度，目的是“实现小客车数量的合理、...

2018-10-27 01:08:24 46209 6

转载机器学习模型评估方法

介绍“所有模型都是坏的，但有些模型是有用的”。我们建立模型之后，接下来就要去评估模型，确定这个模型是否‘有用’。当你费尽全力去建立完模型后，你会发现仅仅就是一些单个的数值或单个的曲线去告诉你你的模型到底是否能够派上用场。在实际情况中，我们会用不同的度量去评估我们的模型，而度量的选择，完全取决于模型的类型和模型以后要做的事。下面我们就会学习到一些用于评价模型的常用度量和图表以及它们各自的使用场景。内...

2018-04-09 23:32:48 1130

转载 Hive导入数据的四种方法

Hive的几种常见的数据导入方式这里介绍四种：（1）、从本地文件系统中导入数据到Hive表；（2）、从HDFS上导入数据到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表，如下：1. hive> create table wyp2. ...

2018-03-28 12:53:29 30999 1

原创 Hive 分组取TOP N

id num 1 50.31 3 26.31 3 71.11 4 26.07 1 11.08 1 72.58 4 48.63 1 46.63 2 67.54 2 94.24 2 5.28 1 80.11 4 14.32 4 78.11 4 52.50 4 86.34 1 97.27 1 97.59 1 59.92 1 40.91 2 66.10 2 2...

2018-03-28 12:31:59 2508

原创 hive 处理字符串

1. 字符串长度函数：length语法: length(string A)返回值: int说明：返回字符串A的长度举例：hive> select length('abcedfg') from lxw_dual;72. 字符串反转函数：reverse语法: reverse(string A)返回值: string说明：返回字符串A的反转结果举例：hive> select reverse(...

2018-03-27 22:39:25 730

原创 Hive中json数据解析

1 概述Hive中提供了两种针对json数据格式解析的函数，即get_json_object()与json_tuple()2 示例[plain] view plain copyhivemsg={ "name": "Tom", "server": "abc.com" } get_json_object函数示例: select get_json_object('${hivems...

2018-03-27 22:36:46 4144

原创朴素贝叶斯分类

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单，也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法，希望有利于他人理解。1 分类问题综述对于分类问题，其实谁都不会陌生，日常生活中我们每天都进行着分类过程。例如，当你看到一个人，你的脑子下意识判断他是学生还是社会上的人；你可能...

2018-03-19 11:24:11 232

转载 SQL经典练习题

准备数据建表语句CREATE TABLE students(sno VARCHAR(3) NOT NULL, sname VARCHAR(4) NOT NULL,ssex VARCHAR(2) NOT NULL, sbirthday DATETIME,class VARCHAR(5))CREATE TABLE courses(cno VARCHAR(5) NOT NULL, cn...

2018-03-11 17:01:17 632

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有一点区别：如...

2018-02-27 12:54:21 294

原创字符编码

一、ASCII 因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，即两个字节可以编码65535个字符。4个字节可以表示的最大整数是42

2017-11-20 22:47:06 408

原创 R语言文本挖掘（1）：分词（Rwordseg）

本文实现对文本的分词操作，并统计词频。一、分词运用R语言进行分词操作需要用到Rwordseg包，而Rwordseg依赖于rjava。 Rwordseg是一个R环境下的中文分词工具，引用了Ansj包，Ansj是一个开源的java中文分词工具，基于中科院的ictclas中文分词算法，采用隐马尔科夫模型（HMM）。Rwordseg有很多优点，一是分词准确，二是分词速度超快，三是可以导入自定义词库

2017-07-10 22:50:09 2687

原创 R语言文本挖掘展示：画词云图

一、wordcloud2包首先安装和加载wordcloud2包> install.packages("wordcloud2")> library(wordcloud2)R wordcloud包中wordcloud2()函数介绍：> wordcloud2(data, size = 1, minSize = 0, gridSize = 0, fontFamily = NULL, fontWeight

2017-06-28 00:16:43 13271 4

原创 mysql：为查询结果增加一个自增列

两句查完：set @rownum=0;select (@rownum:=@rownum+1),colname from [tablename or (subquery) a];一句查完：select @rownum:=@rownum+1,colnum from (select @rownum:=0) a,[tablename or (subquery) b];

2017-06-27 22:26:29 6664

原创 hive：explode() 与 lateral view

一、解决如下问题如何由上面的宽表变成下面的窄表？二、explode()explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. explode() 函数接收array或map类型数据，并分行返回数据的每一个元素。注意输入必须是a

2017-06-21 22:57:23 539

转载 R语言常用的数据框操作

Data Frame一般被翻译为数据框，感觉就像是R中的表，由行和列组成，与Matrix不同的是，每个列可以是不同的数据类型，而Matrix是必须相同的。Data Frame每一列有列名，每一行也可以指定行名。如果不指定行名，那么就是从1开始自增的Sequence来标识每一行。初始化使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个student的D

2017-06-19 22:31:04 2212

MVPdata.csv

空空如也