数据挖掘和BI
xrt95050
喜欢NBA,最喜欢的球星是科比。
喜欢音乐,喜欢上网。
展开
-
云时代的企业应用数据挖掘
随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。转载 2012-02-03 11:21:08 · 1102 阅读 · 0 评论 -
数据挖掘:用户推荐系统技术深度揭秘
数据科学家需要具备专业领域知识并研究相应的算法以分析对应的问题,而数据挖掘是其必须掌握的重要技术。以帮助创建推动业务发展的相应大数据产品和大数据解决方案。EMC最近的一项调查也证实了这点。调查结果显示83%的人认为大数据浪潮所催生的新技术增加了数据科学家的需求。本文将为您展示如何基于一个简单的公式查找相关的项目。请注意,此项技术适用于所有的网站(如亚马逊),以个性化用户体验、提高转换效率。 查找转载 2012-02-03 11:22:32 · 966 阅读 · 0 评论 -
淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。 为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发转载 2012-03-03 19:32:34 · 688 阅读 · 0 评论 -
hadoop基础
一、Hadoop是什么? 答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含:HDFS和MapReduce HDFS是分布式文件系统,用于分布式存储海量数据。 MapReduce是分布式数据处理模型,本质是并行处理。 二、多少数据算海量数据? 答:个人认为,TB(10转载 2012-08-21 10:29:41 · 667 阅读 · 0 评论 -
Hadoop/Hive简介
Hadoop是一个存储计算框架,主要由两部分组成: 存储(Hadoop分布式文件系统-HDFS) 计算(MapReduce计算框架) Hadoop分布式文件系统 这是一种文件系统实现,类似于NTFS,ext3,ext4等等,不过它是建立在更高的层次之上的。在HDFS上存储的文件被分成块(每块默认未64M,比一般的文件系统块转载 2012-08-21 10:44:57 · 859 阅读 · 0 评论 -
什么是MapReduce?
1、MapReduce来龙去脉 MapReduce是一个说难懂也难懂、说好懂也好懂的概念。 说它难懂,是因为,如果你只理论上的去学习、去理解,确实很难懂。 说它好懂,是因为,如果你亲手在hadoop运行过几个MapReduce的job,并稍微学点hadoop的工作原理,基本上也就理解MapReduce的概念了。 所以,有句话说的特别好:“如果将编程比作运动的话,那么它绝对不转载 2012-08-21 10:22:43 · 746 阅读 · 0 评论