数据分析
文章平均质量分 73
大愚若智_
.
展开
-
异常值探测的相关理论及方法
摘要:异常值是影响统计数据质量的一个非常重要的因素,一直以来,我国的统计界以及社会各界均对此问题给予很高的关注。所以,近年来有关异常值的理论探讨一直是个热点问题。但是目前研究的重点一直放在统计法律制度的健全以及统计工作程序完善等方面。虽然这两点确实能提高统计数据的质量,但对于已经形成的统计数据,在进行统计分析之前,我们更关注的是统计数据的误差问题,即所提供的统计数据转载 2014-08-06 13:30:26 · 1454 阅读 · 0 评论 -
聊聊在线教育的推荐系统
今天不谈推荐系统架构,也不谈具体的推荐算法,仅从一个本人亲历过的推荐产品来讨论个性化推荐怎么做更友好一点的问题。 在线教育产品中主要存在着两大类的推荐需求,题目、视频等教育资源的推荐和 辅导老师的推荐,这两大类的推荐都是将平台上的资源与实际需求者进行匹配。下面主要讨论题目、视频等教育资源得推荐为例。实际上,推荐系统是用户与平台资源池进行交互的纽带,其为用户较小信息负载,将最合理的资源推荐给用户,进原创 2017-01-03 15:51:23 · 4549 阅读 · 0 评论 -
房屋价格数据采集与分析
随着互联网的发展,可供分析的信息越来越多,利用互联网上的信息来对生活中的问题做一些简单的研究分析,变得越来越便利了。本文就从数据采集、数据清洗、数据分析与可视化三部分来看看新的一年里房市的一些问题。数据采集: 数据采集即从网页上采集我们需要的指定信息,一般使用爬虫实现。当前开源的爬虫非常多,处于简便及学习的目的,在此使用python的urllib2库模拟http访问网页,并Beau原创 2017-01-23 11:15:52 · 8544 阅读 · 27 评论 -
使用Spark集群进行ETL的架构介绍
什么是ETL:ETL(extract提取、transform转换、load加载)。ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。使用Spark开发ETL系统的优势:1、由于海量的日志记录、交易记录,单机进行ETL变得越来越困难。搭建一套具备大规模数据处理能力的E原创 2017-01-13 14:11:49 · 27026 阅读 · 7 评论 -
聊聊机器学习中的无监督学习
无监督式机器学习的两大类问题:聚类问题和Autoencoder问题,聚类问题解决的其实是模糊...原创 2016-11-02 13:35:53 · 12068 阅读 · 2 评论 -
基于hadoop的BI架构
BI系统,是企业利用数据驱动运营的一个典型系统。BI系统通过发掘企业运行过程中的数据,发现企业的潜在风险、为企业的各项决策提供数据支撑。传统的BI系统通常构建于关系型数据库之上。随着企业业务量的增大和对用户行为实时提取分析的需要越来越高,传统的BI架构对实时性的分析和大数据量的分析已经无法满足,新的数据分析的解决方案便呼之欲出。得益于hadoop对大数据和分布式计算的优势、以及丰富的组件,使用ha原创 2016-08-07 17:02:28 · 6267 阅读 · 7 评论 -
常见假设检验类型对比
在做数据验证、模型验证的时候,经常需要做一些假设检验,以检验得到的数据是否存在某种统计规律、模型的准确性。下面各用一句话总结常用的几种假设检验的适应情况,方便查验:T test 小样本量(样本容量小于30)时用以比较两个平均值的差异是否显著Z test 大样本量(样本容量大于30)时用以比较两个平均值的差异是否显著卡方检验 用以检原创 2016-02-26 20:28:41 · 5834 阅读 · 0 评论 -
K均值聚类的失效性分析
K均值聚类是一种应用广泛的聚类技术,特别是它不依赖于任何对数据所做的假设,比如说,给定一个数据集合及对应的类数目,就可以运用K均值方法,通过最小化均方误差,来进行聚类分析。因此,K均值实际上是一个最优化问题。在一些已知的文献中论述了K均值聚类的一下一些缺点:K均值假设每个变量的分布是球形的;所有的变量具有相同的方差;类具有相同的先验概率,要求每个类拥有相同数量的观测;上述三条任何一翻译 2016-01-02 11:28:43 · 5408 阅读 · 0 评论 -
时间序列的归一化方法
在机器学习、模式识别的模型训练之前,通常需要对数据进行预处理工作,在哪种情况下选用哪种预处理方法,仍然是很多工作人员比较头疼的事情。本人前面的两篇博客总结了一些比较常用的数据归一化方法:数据预处理之归一化再谈机器学习中的归一化方法这两篇博客介绍的都是针对非时间序列的数据进行的一些常规操作。由于时间序列的特殊性(1、相邻序列之间的模式相关性,2、在时间维度上数据是不断产生的),因原创 2015-03-30 19:16:42 · 25107 阅读 · 9 评论 -
且看看唐诗宋词都在写什么
初学R与统计分析,恰巧在统计之都看到一篇运用R分析宋词的文章(统计词话),源于此,借鉴该方法分析了一下全唐诗与全宋词:原创 2014-07-18 21:54:42 · 3684 阅读 · 3 评论 -
统计分析中的假设检验
关于假设检验假设检验(Hypothesis Testing),或者叫做显著性检验(Significance Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。既然以假设为前提,那么在进行检验前需要提出相应的假设:H0:原假设或零假设(null hypothe转载 2014-12-05 14:31:20 · 8529 阅读 · 0 评论 -
PCA与特征选取
一、什么是PCAPCA,即PrincipalComponents Analysis,主成份分析原创 2014-07-21 18:36:06 · 8076 阅读 · 3 评论 -
分类器评价指标
在分类问题中,一个实例可能被判定为一下四种类型之一:TP(True Positive):被模型预测为正的正样本;FP(False Positive):被模型预测为正的负样本;FN(False Negative):被模型预测为负的正样本;TN(True Negative):被模型预测为负的负样本;分类器评价指标定义及计算方式为:准确率:对整个样本集的判定能力,即将正的原创 2014-10-31 20:44:23 · 10785 阅读 · 2 评论 -
机器学习中的维数灾难
一.引言这里我们将要tao'l翻译 2014-08-29 18:46:12 · 41298 阅读 · 14 评论 -
数据预处理之归一化
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。归一化是为了加快训练网络的收敛性,可以不进行归一化处理归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来转载 2014-10-11 16:49:12 · 11971 阅读 · 0 评论 -
用户画像怎么做
大数据时代,大家都在说精准营销,所谓精准营销即是将你的商品、服务定向推广到真正需要它的人实现商品服务与用户的精确匹配、达到降低推广费用、提升推广效率的目的,这一点在当今互联网红利消退、获客成本越来越高的今天,更加重要。诸如此类的还有千人千面的个性化服务、智能感知服务等等。需要实现以上目的,需要商品、服务提供者对用户做到足够的了解。怎么做到对用户的了解:通常情况下,我们会基于用户在平台内部的注册信息原创 2017-03-07 17:21:08 · 4922 阅读 · 0 评论