- 博客(10)
- 资源 (6)
- 收藏
- 关注
原创 参数估计 python实践
1、背景想要探究movielens 1M评分数据的评分分布情况是否符合某种分布,做如下假设2、理论推导3、算法实现3.1 数据准备工作#导入所需要的库import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as plt#数据的准备工作with open("r...
2019-12-29 14:43:06 341
原创 hive 表中常用的 增加/修改/替换列操作
1)语法更新列ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]增加和替换列ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name da...
2019-12-26 16:11:26 5079
原创 hive 分区表和数据产生关联三种方式
写在前面:想要从hive数据库里面查询到数据就要求hive的元数据必须存在且元数据指向的的HDFS路径中也必须要存在实际的数据(1)方式一:上传数据后修复 使用的场景是历史数据积累了很多分区数据,推荐使用该方式,该方法将HDFS上的数据方向写到hive的元数据库MySQL中上传数据hive (default)> dfs -mkdir -p /user/hive/wareho...
2019-12-26 16:00:30 739
原创 统计学习之假设检验
1、什么是假设检验假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。2、假设检验的相关概念2.1原假设和备择假...
2019-12-22 14:49:24 2681
原创 统计学习系列之参数估计
参数估计1、什么是参数估计简单来说是:参数估计是指使用样本统计量估计总体的参数的【百度百科的解释如下】参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在...
2019-12-22 11:48:10 4440
原创 抽样分布实践(python版)
任务描述: 1、验证数据是否服从正太分布 2、验证数据是否服从T分布 3、验证数据是否服从卡方分布背景知识: 1、什么是假设检验 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的...
2019-12-21 18:44:07 615
原创 HIVE 分组排序查询
笔者在参加面试时遇到的一个关于hive数据库查询的的问题题意大概是这个样子的。有如下图结构的一个表:表中的数据是长这个样子的:面试官要求我查询的结果是长这个样子的我第一印象觉得这个题还蛮简单的,就写了一个select col1,col2,col3,max(col4) from test_selectgroup by col1,col2;面试官说你确定...
2019-12-10 11:31:42 954
原创 统计学习-抽样分布
常用统计量:样本均值样本均值(sample mean)又叫样本均数。即为样本的均值。均值是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。样本方差先求出总体各单位变量值与其算术平均数的离差的平方,然后再对此变量取平均数,就叫做样本方差。样本方差用来表示一列数的变异程度。样本均值又叫样本均数。即为样本的均值。样本变异系...
2019-12-08 22:18:21 3984
原创 统计学习第五弹--python实践概率分布
正态分布(Normal distribution)正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右对称,中央部位的概率密度最大。越偏离均值,其概率密度减小。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定...
2019-12-08 21:31:37 347
原创 FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcepti
这个问题出现的原因有很多种我这里只能够分享出解决我问题的一个思路:1、首先要检查mysql数据库服务有没有启动,因为对hive进行的所有操作都要存储到mysql数据库的 ,英文关于hive的元数据存储在mysql数据库中,如果mysql数据库服务没有启动 hive就不能正常工作的2、检查hive-site.xml 文件里面的配置信息(要注意自己数据库的密码)<configura...
2019-12-06 22:57:19 412
统计学习-描述性统计.docx
2019-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人