自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (6)
  • 收藏
  • 关注

原创 参数估计 python实践

1、背景想要探究movielens 1M评分数据的评分分布情况是否符合某种分布,做如下假设2、理论推导3、算法实现3.1 数据准备工作#导入所需要的库import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as plt#数据的准备工作with open("r...

2019-12-29 14:43:06 341

原创 hive 表中常用的 增加/修改/替换列操作

1)语法更新列ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]增加和替换列ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name da...

2019-12-26 16:11:26 5079

原创 hive 分区表和数据产生关联三种方式

写在前面:想要从hive数据库里面查询到数据就要求hive的元数据必须存在且元数据指向的的HDFS路径中也必须要存在实际的数据(1)方式一:上传数据后修复 使用的场景是历史数据积累了很多分区数据,推荐使用该方式,该方法将HDFS上的数据方向写到hive的元数据库MySQL中上传数据hive (default)> dfs -mkdir -p /user/hive/wareho...

2019-12-26 16:00:30 739

原创 统计学习之假设检验

1、什么是假设检验假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。2、假设检验的相关概念2.1原假设和备择假...

2019-12-22 14:49:24 2681

原创 统计学习系列之参数估计

参数估计1、什么是参数估计简单来说是:参数估计是指使用样本统计量估计总体的参数的【百度百科的解释如下】参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在...

2019-12-22 11:48:10 4440

原创 抽样分布实践(python版)

任务描述: 1、验证数据是否服从正太分布 2、验证数据是否服从T分布 3、验证数据是否服从卡方分布背景知识: 1、什么是假设检验 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的...

2019-12-21 18:44:07 615

原创 HIVE 分组排序查询

笔者在参加面试时遇到的一个关于hive数据库查询的的问题题意大概是这个样子的。有如下图结构的一个表:表中的数据是长这个样子的:面试官要求我查询的结果是长这个样子的我第一印象觉得这个题还蛮简单的,就写了一个select col1,col2,col3,max(col4) from test_selectgroup by col1,col2;面试官说你确定...

2019-12-10 11:31:42 954

原创 统计学习-抽样分布

常用统计量:样本均值样本均值(sample mean)又叫样本均数。即为样本的均值。均值是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。样本方差先求出总体各单位变量值与其算术平均数的离差的平方,然后再对此变量取平均数,就叫做样本方差。样本方差用来表示一列数的变异程度。样本均值又叫样本均数。即为样本的均值。样本变异系...

2019-12-08 22:18:21 3984

原创 统计学习第五弹--python实践概率分布

正态分布(Normal distribution)正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右对称,中央部位的概率密度最大。越偏离均值,其概率密度减小。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定...

2019-12-08 21:31:37 347

原创 FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcepti

这个问题出现的原因有很多种我这里只能够分享出解决我问题的一个思路:1、首先要检查mysql数据库服务有没有启动,因为对hive进行的所有操作都要存储到mysql数据库的 ,英文关于hive的元数据存储在mysql数据库中,如果mysql数据库服务没有启动 hive就不能正常工作的2、检查hive-site.xml 文件里面的配置信息(要注意自己数据库的密码)<configura...

2019-12-06 22:57:19 412

China-national-Std-GBT-7714-2005-NCUTER.csl

自定义毕业论文餐卡文献格式,可以更加高效的撰写毕业论文

2021-06-19

传统汽车的销量——时序数据.xlsx

03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量

2020-03-08

ratings.dat

本数据集是movielens公开的数据集 不是完整版是关于评分的 主要的作用是配合我写的参数估计 python实践使用的

2019-12-29

描述性统计.ipynb

该文件是针对统计学中常用的统计量进行编写的python代码 使用的是notebook

2019-11-07

统计学习-描述性统计.docx

统计学习-描述性统计(理论部分)主要包含的内容有: 集中趋势各测度值的计算方法 2. 集中趋势各测度值的特点 3. 离散程度各测度值的计算方法 4. 离散程度各测度值的特点 5. 偏态与峰态的测度方法

2019-11-07

Scrapy爬虫

Scrapy爬虫框架,一种很强大的 python 爬虫框架,初学python爬虫者必知

2018-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除