![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 64
zhenglit
dont ever underestimate a heart of championshi.
展开
-
CausalImpact
原文地址:http://google.github.io/CausalImpact/CausalImpact.html1. Installing the package 2. Creating an example dataset 3. Running an analysis 4. Plotting the results 5. Working with dates and times 6. Printing a summary table 7. Adjusting the model 8转载 2021-03-03 16:42:08 · 2556 阅读 · 3 评论 -
使用R进行倾向得分匹配(PSM)
【译文】使用R进行倾向得分匹配(PSM)作者 Norbert Köhler译者 钱亦欣根据维基百科,倾向得分匹配(PSM)是一种用来评估处置效应的统计方法。广义说来,它将样本根据其特性分类,而不同类样本间的差异就可以看作处置效应的无偏估计。因此,PSM不仅仅是随机试验的一种替代方法,它也是流行病研究中进行样本比较的重要方法之一。让我们举个栗子:与健康相关的生活质量(HRQOL)被认为是癌症治疗的重要结果之一。对癌症患者而言,最常用的HRQOL测度是通过欧洲癌症研究与治疗中心的调查问卷计算得出转载 2021-03-02 20:24:48 · 14406 阅读 · 4 评论 -
关于AB实验样本累积的记录
当达到最小样本量的时候,我们能否再积累两天样本,使得P值发生改变,然后选择改变后的P值作为我们的结论?不能!背景:在做AB实验的时候我们根据MDE计算出了最小样本量,根据最小样本量我们规划了一个7天的实验,但是7天后我们评估发现p-value>0.05,这个时候我们能否再积累两天样本使得p-value<0.05的时候再做结论?不能,我们是“在保证犯第一类错误的概率<0.05的前提下,尽量的使得power越大越好”,虽然继续积累样本量可以保证power越来越大,但是我们就没办法保证原创 2021-01-14 21:07:34 · 404 阅读 · 0 评论 -
AB实验中最小样本量的计算
一、随机对照试验(两组均值)比较的样本量计算方法二、随机对照试验(两组率)比较的样本量计算方法本文来自:医学论文与统计分析,摘抄用于记录。原创 2020-05-19 18:54:37 · 23351 阅读 · 2 评论 -
tidyverse数据处理
tidyverse出自于R大神Hadley Wickham之手,他是Rstudio首席科学家,也是ggplot2的作者。tidyverse就是他将自己所写的包整理成了一整套数据处理的方法,包括ggplot2,dplyr,tidyr,readr,purrr,tibble,stringr, forcats。tidyverse主要的经常用的函数工具:1.管道符%>%> iris %>% head(,3) Sepal.Length Sepal.Width Petal.Length P原创 2020-05-17 20:26:12 · 3082 阅读 · 0 评论 -
预测2019-2020赛季常规赛MVP
受新冠肺炎影响,2019-2020赛季NBA已经处于停摆状态,是否以及何时能复赛还不清楚。相关的各项评选如常规赛MVP、最佳阵容、最佳防守等也由于疫情暂停了。按照往年的赛程节奏,此时也应该进入常规赛收官阶段了。本文利用历史数据和本赛季常规赛已发生数据来预测本赛季(2019-2020赛季)的常规赛MVP。NBA常规赛MVP是NBA所有个人荣誉中的最高荣誉。像乔丹、科比、詹姆斯、库里等超级巨星曾经到获得过常规赛MVP。一、数据和方法数据:13-14赛季、14-15赛季、15-16赛季、16-17原创 2020-05-10 19:45:27 · 3614 阅读 · 4 评论 -
预测NBA全明星
以下内容为zhenglit原创,供大家学习研究,转载请声明来源。一、背景和数据NBA每年都会举办一次全明星赛,用于回馈球迷和社会。每一个篮球明星都是经过一定的票选选出来的,虽然选法不尽相同,但总体上一个原则:越优秀的运动员越可能被选上。怎么定义优秀?一般从运动员的得分、防守、球队胜利等方面来评价(当然还有可能基于运动员当年的市场火热程度/是不是招黑等),每个投票者(球迷或教练)心里都会有一个...原创 2020-03-15 22:45:08 · 744 阅读 · 0 评论 -
AB测试的统计学原理
随笔记一些:1. 大数定理说明频率的极限是概率;中心极限定理说明不论总体服从何种分布,从中抽取n个样本,则这n个样本的总和或平均数是一个随机变量,当n足够大时,这n个样本的总和或平均数服从正态分布。假设检验的所有原理都依赖于中心极限定理。2. AB测试中的假设检验都用双侧检验,这样比较容易记忆和处理,即原假设都设置为等号,即AB策略没有差异。3. AB测试中的假设检验一般用Ttest,...原创 2020-02-29 19:44:40 · 3158 阅读 · 0 评论 -
sample函数随机抽取训练集和测试集
ind=sample(2,nrow(dataset),replace=TRUE,prob=c(0.7,0.3))data_train=dataset[ind==1,]data_test=dataset[ind==2,]R语言中的sample()函数是用于随机采样的函数。函数模型:sample(x, size, replace = FALSE, prob = NULL)x参数为一个向...原创 2019-02-15 18:33:01 · 6838 阅读 · 0 评论 -
R语言之逻辑回归
本文转载自https://www.cnblogs.com/Hyacinth-Yuan/p/7905855.html本文主要将逻辑回归的实现,模型的检验等参考博文http://blog.csdn.net/tiaaaaa/article/details/58116346;http://blog.csdn.net/ai_vivi/article/details/438366411.测试集和训练...转载 2019-02-15 18:46:24 · 38154 阅读 · 2 评论 -
SQL 统计连续出现的次数
问题:一个表记录了某论坛会员的发贴情况,存储了会员uid ,发贴时间post_time和内容content。找出连续发贴三次及以上的会员。uid post_time content 1 2019-03-01 00:00:00 a 2 2019-03-01 00:00:01 b 3 2019-03-01 00:00:02 c ...原创 2019-03-01 18:04:19 · 20498 阅读 · 13 评论 -
SQL 统计日环比、周同比
date gmv 2019-01-01 115.7 2019-01-02 180.1 2019-01-03 296.8 2019-01-04 706.0 2019-01-05 703.5 2019-01-06 527.3 2019-01-07 462.9 2019-01-08 270.1 2019-01-09...原创 2019-03-01 19:12:41 · 20045 阅读 · 0 评论 -
hive函数大全
Hive Operators and User-Defined Functions (UDFs)Hive Operators and User-Defined Functions (UDFs) Built-in Operators Operators Precedences Relational Operators Arithmetic Operators L...转载 2019-03-11 16:49:17 · 600 阅读 · 0 评论 -
Rggplot2
文章转载自:https://www.cnblogs.com/nxld/p/6059603.html分析数据要做的第一件事情,就是观察它。对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测?ggplot2图形之基本语法:ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数,使其更具灵活...转载 2019-03-11 17:49:51 · 1350 阅读 · 0 评论 -
T检验和F检验
1,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少...转载 2019-05-20 21:00:51 · 3723 阅读 · 0 评论 -
根据日期判断星期几
pmod(datediff(substr(a_birth_time,1,10),'2010-01-03'),7) in (6,0) then '周末' else '周中' end as date_type原创 2018-12-25 15:07:03 · 460 阅读 · 0 评论 -
R语言画雷达图
library(fmsb)maxmin <- data.frame(total=c(5,1),phys=c(15,3),psycho=c(3,0),social=c(5,1),env=c(5,1))# data for radarchart function version 1 series, minimum value must be omitted from above....转载 2018-12-27 18:13:02 · 9065 阅读 · 0 评论 -
R语言假设检验实例
一、正态分布参数检验 例1. 某种原件的寿命X(以小时计)服从正态分布N(μ, σ)其中μ, σ2均未知。现测得16只元件的寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于255小时?...转载 2018-12-27 15:01:14 · 6762 阅读 · 3 评论 -
字符编码
一、ASCII 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是65535,即两个字节可以编码65535个字符。4个字节可以表示的最大整数是42原创 2017-11-20 22:47:06 · 244 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点区别:如...转载 2018-02-27 12:54:21 · 260 阅读 · 0 评论 -
SQL经典练习题
准备数据建表语句CREATE TABLE students(sno VARCHAR(3) NOT NULL, sname VARCHAR(4) NOT NULL,ssex VARCHAR(2) NOT NULL, sbirthday DATETIME,class VARCHAR(5))CREATE TABLE courses(cno VARCHAR(5) NOT NULL, cn...转载 2018-03-11 17:01:17 · 605 阅读 · 0 评论 -
朴素贝叶斯分类
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能...原创 2018-03-19 11:24:11 · 195 阅读 · 0 评论 -
机器学习模型评估方法
介绍“所有模型都是坏的,但有些模型是有用的”。我们建立模型之后,接下来就要去评估模型,确定这个模型是否‘有用’。当你费尽全力去建立完模型后,你会发现仅仅就是一些单个的数值或单个的曲线去告诉你你的模型到底是否能够派上用场。在实际情况中,我们会用不同的度量去评估我们的模型,而度量的选择,完全取决于模型的类型和模型以后要做的事。下面我们就会学习到一些用于评价模型的常用度量和图表以及它们各自的使用场景。内...转载 2018-04-09 23:32:48 · 861 阅读 · 0 评论 -
Hive中json数据解析
1 概述Hive中提供了两种针对json数据格式解析的函数,即get_json_object()与json_tuple()2 示例[plain] view plain copyhivemsg={ "name": "Tom", "server": "abc.com" } get_json_object函数示例: select get_json_object('${hivems...原创 2018-03-27 22:36:46 · 4073 阅读 · 0 评论 -
hive 处理字符串
1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual;72. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hive> select reverse(...原创 2018-03-27 22:39:25 · 646 阅读 · 0 评论 -
Hive 分组取TOP N
id num 1 50.31 3 26.31 3 71.11 4 26.07 1 11.08 1 72.58 4 48.63 1 46.63 2 67.54 2 94.24 2 5.28 1 80.11 4 14.32 4 78.11 4 52.50 4 86.34 1 97.27 1 97.59 1 59.92 1 40.91 2 66.10 2 2...原创 2018-03-28 12:31:59 · 2336 阅读 · 0 评论 -
Hive导入数据的四种方法
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:1. hive> create table wyp2. ...转载 2018-03-28 12:53:29 · 29951 阅读 · 1 评论 -
关于北京摇号概率的相关计算
以下内容为zhenglit原创,转载请声明来源。让我们来讨论下,每次摇号你是怎么被当成分母的。今天北京有2996799人都同时收到了同一条短信,不是降温提醒,但足以让人心凉:“很遗憾,该编码本次摇号未中签。温馨提示:北京摇号资格有效期为6个月,满足摇号条件,过期将自动顺延6个月,可登录官网查看 。”北京自2010年12月23日起开始施行小客车摇号制度,目的是“实现小客车数量的合理、...原创 2018-10-27 01:08:24 · 45337 阅读 · 6 评论 -
R爬虫:链家租房数据爬取
单一网页尝试lianjia_url <- "https://bj.lianjia.com/zufang/pg1/"lianjia_web<-read_html(lianjia_url,encoding = "UTF-8")where <- html_nodes(lianjia_web,".where")%>%html_text()other <- html_...原创 2018-12-02 17:50:59 · 1444 阅读 · 1 评论 -
关于NBA所有数据的爬虫(rvest)
--需要爬虫的原因是网站一次性最多下载150行数据,如果手工下载的话,需要下载复制5190次--准备工作library("rvest")library("xml2")--单一网页尝试url <- "http://www.stat-nba.com/query.php?page=0&QueryType=game&GameType=season&order=...原创 2018-12-01 20:59:22 · 695 阅读 · 0 评论 -
Mysql判断两列字符串是否有包含关系
LOCATE(substr,str) --------->如果substr包含于str中,则输出不为0,为开始匹配的位置;否则为0SELECT LOCATE('b','abc') ------->2SELECT LOCATE('yxc','adsfuyxcjdjf') ---------->6例:原创 2017-06-12 20:29:41 · 4077 阅读 · 0 评论