![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Big DATA
贾诩是也
走过很多弯路,一直坚强、执着的眺望着远方、、、一个听着小米布斯故事成长起来的老码农。不忘初心,方得始终、、、给自己鼓劲加油,为这个时代华丽的时代喝彩!
展开
-
六大主流大数据采集平台架构分析
日志收集的场景DT时代,数以亿万计的服务器、移动终端、网络设备每天产生海量的日志。中心化的日志处理方案有效地解决了在完整生命周期内对日志的消费需求,而日志从设备采集上云是始于足下的第一步。随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache FlumeFluentdLogstashChukwaScribeSplunk Forwar翻译 2018-03-07 17:21:38 · 17076 阅读 · 1 评论 -
基于微软案例数据挖掘之Microsoft 时序算法
此算法也是数据挖掘算法中比较重要的一款,因为所有的推算和预测都将利用于未来,而这所有的一切都将有一条时间线贯穿始终,而这将是时序算法的侧重点。应用场景介绍通过前几篇文章的介绍,我们已经能预测出影响某种行为的因素有哪些,并且根据这些因素综合挖掘出我们的最优客户群体(将会购买自行车),这也是上面介绍的几种算法的长项,但是会不会觉得从大数据中获取的信息太少了点,与很多问题仅仅通过上面几种算法是推翻译 2017-09-08 05:32:27 · 750 阅读 · 0 评论 -
基于微软案例数据挖掘之Microsoft Naive Bayes 算法
本篇文章主要是继续上两篇Microsoft决策树分析算法和Microsoft聚类分析算法后,采用另外更为简单一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。有兴趣的同学可以先参照上面两种算法过程。应用场景介绍通过前面两种算法的应用场景介绍,此次总结的Microsoft Naive Bayes 算法也同样适用,但本篇的Microsoft Naive Bayes算法较上两翻译 2017-09-07 08:32:44 · 463 阅读 · 0 评论 -
(10)数据挖掘算法之CART
1. 前言分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出,既可用于分类也可用于回归。本文将主要介绍用于分类的CART。CART被称为数据挖掘领域内里程碑式的算法。不同于C4.5,CART本质是对特征转载 2017-09-07 08:31:41 · 429 阅读 · 0 评论 -
(9)数据挖掘算法之Naïve Bayes
朴素贝叶斯(Naïve Bayes)属于监督学习的生成模型,实现简单,没有迭代,学习效率高,在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立,在输入向量的特征条件有关联的场景下并不适用。1. 朴素贝叶斯算法朴素贝叶斯分类器的主要思路:通过联合概率 建模,运用贝叶斯定理求解后验概率 ;将后验概率最大者对应的的类别作为预测类别。分类方法首先,我们定义训练集转载 2017-09-07 08:31:26 · 746 阅读 · 0 评论 -
(8)数据挖掘算法之AdaBoost
1. 集成学习集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一般采用的是弱可学习(weakly learnable)分类器,通过集成学习,组合成一个强可学习(strongly learnable)分类器。所谓弱可学习,是指学习的正确率仅略优于随机猜测的多项式学习算法;强可学习指正转载 2017-09-07 08:31:09 · 540 阅读 · 0 评论 -
(7)数据挖掘算法之kNN
1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes与 CART。 以前看过关于这些数据挖掘算法,但对背后数学原理未做过多探究,因而借此整理以更深入地理解这些算法。本文讨论的kNN算法是监督学习中分类方法的一种。所谓监转载 2017-09-07 08:30:50 · 570 阅读 · 0 评论 -
(6)数据挖掘算法之PageRank
我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇,是因为本人是Google脑残粉。因了PageRank而Google得以成立,因了Google而这个世界变得好了那么一点点。1. 引言PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的,用来解决链接分析中网页排名的问题。在衡量一个网页的排名,直觉告诉我们:当一个网页被更多转载 2017-09-07 08:30:16 · 305 阅读 · 0 评论 -
Mahout代码示例
一, Introductionpackage mia.recommender.ch02;//=分析导入包可以看出mahout的包分为主要类以及它们的实现类=import org.apache.mahout.cf.taste.impl.model.file.*;import org.apache.mahout.cf.taste.impl.neighborhood.*;import org转载 2017-09-14 22:28:03 · 354 阅读 · 0 评论 -
(4)数据挖掘算法之Apriori
1. 关联分析关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。比如,在著名的购物篮事务(market basket transactions)问题中,TIDIterms1{Bread, Milk}2{Bread, Diapers, Beer, Eggs}3{Milk, Diapers, Beer,转载 2017-09-06 23:22:38 · 509 阅读 · 0 评论 -
(2)数据挖掘算法之k-means
1. 引言k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派,指将未标注的样本数据中相似的分为同一类,正所谓“物以类聚,人以群分”嘛。k-means是聚类算法中最为简单、高效的,核心思想:由用户指定k个初始质心(initial ce转载 2017-09-06 23:20:25 · 429 阅读 · 0 评论 -
(1)数据挖掘算法之C4.5
1. 决策树模型与学习决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其中,C4.5是基于ID3的,对分裂属性的目标函数做出了改进。决策树模型决策树是一种通过对特征属性的分类对样本进行分类的树形结构,包括有向边与三类节点:根节转载 2017-09-06 23:19:30 · 516 阅读 · 0 评论 -
大数据平台之CDH集群离线搭建
前言以Apache Hadoop为主导的大数据技术的出现,使得中小型公司对于大数据的存储与处理也拥有了武器。目前Hadoop有不少发行版:华为发行版 收费、Intel发行版收费、Cloudera发行版(Cloudera’s Distribution Including Apache Hadoop,简称 CDH)免费、Hortonworks发行版(Hortonworks Data Pla翻译 2017-09-06 23:16:43 · 661 阅读 · 0 评论 -
随笔之《决战大数据》
未来是大数据的时代,未来的竞争就是数据的竞争。以前,我们都是有问题找数据,而大数据时代,其最核心的特质则是“用数据找机会”。——车品觉《决战大数据:驾驭未来商业的利器》是我在两年前接触到的第一本关于大数据的书籍,由阿里巴巴集团副总裁车品觉所著。此书不是讲具体的大数据处理技术,而是从一个大数据运营践行者的角度来讲大数据的本质、数据处理的核心思想以及阿里巴巴数据运营的“内外三板斧”。文章并非枯原创 2017-09-06 22:57:20 · 471 阅读 · 0 评论 -
基于微软案例数据挖掘之结果预算+下期彩票预测篇
本篇我们将根据上一篇的预测过程详细的给出预测结果值,形成一份可供具体参考的数据明细表。应用场景介绍作为Microsoft时序算法的应用场景,在上一篇我们已经详细介绍了,本篇就不再赘述,总结一下就是凡事要应用时间总线为依据,根据以往历史事例记录推测以后将要发生的结果值,此种场景我们都会应用到时序算法。比如:预测销售记录、预测营业额度、预测明年公司员工人数、预测下个月房价、预测明年....翻译 2017-09-08 05:36:04 · 4976 阅读 · 0 评论 -
基于微软案例数据挖掘之Microsoft 线性回归分析算法
本篇介绍的为Microsoft线性回归分析算法,此算法其实原理和Microsoft神经网络分析算法一样,只是侧重点不一样,Microsoft神经网络算法是基于某种目的,利用现有数据进行“诱探”分析,侧重点是分析,而Microsoft线性回归分析算法侧重的是“预测”,也就是基于神经网络分析出来的规则,进行结果的预测。应用场景介绍该算法的应用场景和上一篇的Microsoft神经网络分析算法一样翻译 2017-09-08 05:36:45 · 715 阅读 · 1 评论 -
Hadoop - 浅谈Ambari集群管理剖析
1.Overview Ambari是Apache推出的一个集中管理Hadoop的集群的一个平台,可以快速帮助搭建Hadoop及相关以来组件的平台,管理集群方便。这篇博客记录Ambari的相关问题和注意事项。方便为初学者省去搭配各个社区版的烦恼。2.How to works 在Ambari的官方WIKI上介绍了如何去使用Ambari,[官方文档]。官方说法比较简要,下面我补充相关注意原创 2017-12-30 09:48:04 · 789 阅读 · 0 评论 -
基于微软案例数据挖掘之Microsoft 神经网络分析算法
本篇我们将要总结的算法为:Microsoft 神经网络分析算法,此算法微软挖掘算法系列中最复杂也是应用场景最广泛的一个,简单点讲:就是模拟我们的大脑从茫茫的数据海洋中思考出有用的信息,来达到数据挖掘的目的。原理可以参考上篇。应用场景介绍关于Microsoft神经网络算法的应用场景还是蛮多的,在上一篇原理篇我们就介绍过,其主要是应用在以下领域:营销和促销分析,如评估直接邮件促销或一个翻译 2017-09-08 05:37:10 · 1623 阅读 · 0 评论 -
(3)数据挖掘算法之SVM
SVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可分类为三类:线性可分(linear SVM in linearly separable case)的线性SVM、线性不可分的线性SVM、非线性(nonlinear)SVM。1. 线性可分对于二类分类问题,训练集转载 2017-09-06 23:21:19 · 514 阅读 · 0 评论 -
大数据常见150坑
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j转载 2017-09-06 23:12:40 · 1821 阅读 · 0 评论 -
基于微软案例数据挖掘之Microsoft 关联规则分析算法
此篇的Microsoft关联规则算法就是用来挖掘关联关系的典型算法,闲言少叙,我们直接进入正题。应用场景介绍关联规则算法是在大量数据事例中挖掘项集之间的关联或相关联系,它典型的应用就是购物篮分析,通过关联规则分析帮助我们发现交易数据库中不同的商品(项)之间的联系,找到顾客购买行为模式,如购买某一个商品对其它商品的影响。进而通过挖掘结果应用于我们的超市货品摆放、库存安排、电子商务网站的导航安翻译 2017-09-08 05:38:11 · 1121 阅读 · 0 评论 -
基于微软案例数据挖掘之Microsoft 聚类分析算法
本篇文章主要是继续上一篇Microsoft决策树分析算法后,采用另外一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。应用场景介绍通过上一篇中我们采用Microsoft决策树分析算法对已经发生购买行为的订单中的客户属性进行了分析,可以得到几点重要的信息,这里做个总结:1、对于影响购买自行车行为最重要的因素为:家中是否有小汽车,其次是年龄,再次是地域2、通过折叠树翻译 2017-09-07 08:32:30 · 668 阅读 · 0 评论 -
(5)数据挖掘算法之EM
1. 极大似然极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如,我们想了解抛硬币是正面(head)的概率分布 ;那么可以通过最大似然估计方法求得。假如我们抛硬币 次,其中 次正面、 次反面;极大似然估计参数 值: 其中, 为观测变量序列的似然函数(likelihood function of the转载 2017-09-07 08:29:48 · 371 阅读 · 0 评论 -
浅谈大数据系统数据采集产品的架构以及演进
任何完整的大数据平台,一般包括以下的几个过程:数据采集数据存储数据处理数据展现(可视化,报表和监控)其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括:数据源多种多样数据量大,变化快如何保证数据采集的可靠性的性能如何避免重复数据如何保证数据的质量原创 2017-11-03 18:13:49 · 4110 阅读 · 0 评论 -
微信技术总监讲大数据高并发系统架构
微信——腾讯战略级产品,创造移动互联网增速记录,10个月5000万手机用户,433天之内完成用户数从零到一亿的增长过程,千万级用户同时在线,摇一摇每天次数过亿……在技术架构上,微信是如何做到的?日前,在腾讯大讲堂在中山大学校园宣讲活动上,腾讯广研助理总经理、微信技术总监周颢在两小时的演讲中揭开了微信背后的秘密。 周颢,2001年毕业于华南理工大学,计算机专业硕士。2005年加入腾讯广州研发转载 2017-11-03 18:10:03 · 812 阅读 · 0 评论 -
大数据时代的新BI系统架构发展趋势
商业智能(BI,Business Intelligence)。它是一套完整的解决方式,用来将企业中现有的数据进行有效的整合,高速准确的提供报表并提出决策根据。帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。眼下,商业智能通常被理解为将企业原创 2017-11-03 18:07:58 · 2664 阅读 · 0 评论 -
基于微软案例数据挖掘之Microsoft 顺序分析和聚类分析算法
应用场景介绍Microsoft顺序分析和聚类分析算法,根据名称就可以联想到其应用特点,该挖掘算法是基于聚类分析算法之上然后对其分类内的事例顺序进行挖掘,其分析的重点在于事例间的顺序规则,上一篇我们介绍的Microsoft关联规则算法它的重点在于挖掘事例间的关联关系,而对产生关联关系的顺序则不关系,简单点讲:关联规则算法研究的是“鸡与蛋的关系”,而顺序分析和聚类分析算法则研究的就是“先有鸡还是先翻译 2017-09-08 05:38:42 · 1044 阅读 · 0 评论 -
基于微软案例数据挖掘之结果预测篇
本篇也是数据挖掘各层次间最高的产物,推测未知的事物。鉴于各种算法应用场景不同,还有用法区别...后期我会整理出文章目录,供对大数据兴趣的同学查阅。应用场景介绍通过前几篇文章对挖掘算法的介绍,其实应用的场景大部分是围绕着已经购买自行车这部分群体的特征、行为分析,对他们的特性进行分类挖掘,对于我们想要知道那些人会买自行车特征进行推测,但所有这些的这些都是基于已经发生的事实,而没有对未来未发翻译 2017-09-07 08:33:05 · 395 阅读 · 0 评论 -
基于微软案例数据挖掘之Microsoft 神经网络分析算法原理篇
算法起源在思维学中,人类的大脑的思维分为:逻辑思维、直观思维、和灵感思维三种基本方式。而神经网络就是利用其算法特点来模拟人脑思维的第二种方式,它是一个非线性动力学系统,其特点就是信息分布式存储和并行协同处理,虽然单个神经元的结构及其简单,功能有限,但是如果大量的神经元构成的网络系统所能实现的行为确实及其丰富多彩的。其实简单点讲就是利用该算法来模拟人类大脑来进行推理和验证的。我们先简要的翻译 2017-09-08 05:37:47 · 643 阅读 · 0 评论 -
使用Ambari快速部署Hadoop大数据环境
前言做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能.作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,在自己的虚拟机(CentOS原创 2017-09-06 22:54:56 · 317 阅读 · 0 评论 -
Hive UDF开发初步
编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型(Hadoop&Hive 基本writable类型,如Text,IntWritable,LongWriable,DoubleWritable等等),那么简单的API(org.apache.hadoop.hive.ql.exec.UDF)可以胜任翻译 2017-08-29 08:00:09 · 419 阅读 · 0 评论 -
HiveQL语法一览
HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准, 如HiveQL不支持更新操作, 也不支持索引和事务, 它的子查询和join操作也很局限, 这是因其底层依赖于Hadoop云平台这一特性决定的, 但其有些特点是SQL所无法企及的。例如多表查询、支持create table as select和集成MapReduce脚本等, 本节主要介绍Hive的数据类原创 2017-08-29 07:52:38 · 928 阅读 · 0 评论 -
寻找HBase的替代者
背景随着hadoop系列的兴起,基于HDFS的大规模KV存储系统HBase也进入“大规模使用阶段”。网上的Hbase资料很多,学习成本正在下降。从公开的资料看,国外facebook、国内taobao均宣称在线上环境大规模使用hbase。一切都让人很兴奋。于是,在项目中引入Hbase做存储,最终却选择放弃。HBase的设计HBase是模仿google bigtable的开源产品,又是转载 2017-08-10 00:29:26 · 6355 阅读 · 0 评论 -
8个可能代替 HDFS的方案
HDFS(hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点,包括:不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。 Apache软件基金会成立的时候,HDFS就一直在想办法提高它的性能和可用性,坦白说翻译 2017-08-10 00:28:59 · 5811 阅读 · 0 评论 -
HBase设计规范之我见(1)
1. HBase设计规范之前,HBase官方和大批的高人已经总结了一部分HBase设计方面的规范,笔者进行了搜集整理,再加上自己的理解和丰富,就整理出了一份自己感觉适合自己开发所应遵循的规范。Hbase中与表结构相关的逻辑模型涉及到以下几个词汇:命名空间、表、列族、列、行键、版本等,这些是构建hbase表的所有元素。笔者就依据这几个关键词汇,陈述下相关的规范。1.1. Namespac原创 2017-08-10 00:28:44 · 1087 阅读 · 0 评论 -
HBase设计之RowKey行键设计规范(2)
2. RowKey行键设计规范2.1. RowKey四大特性2.1.1 字符串类型虽然行键在HBase中是以byte[]字节数组的形式存储的,但是建议在系统开发过程中将其数据类型设置为String类型,保证通用性;如果在开发过程中将RowKey规定为其他类型,譬如Long型,那么数据的长度将可能受限于编译环境等所规定的数据长度。常用的行键字符串有以下几种:纯数字字符串,譬如原创 2017-08-10 00:28:34 · 1171 阅读 · 0 评论 -
HBase设计之RowKey行键生成器工具(3)
所谓RowKey行键生成器,是指通过软件工具制定行键生成策略,并可将策略信息保存成本地策略文件,待需要时再将本地策略文件序列化成行键生成策略对象,传入数据行信息后可自动生成RowKey行键。那么,为什么要设计这个行键生成器呢?最初的时候,我们有一个需求,要把Oracle中的若干大表数据导入到HBase中,那么这里就出现了一个问题:那么多表,每个表的RowKey生成规则都是不一样的,难道我们要为原创 2017-08-10 00:28:23 · 1858 阅读 · 0 评论 -
HBase设计之HBase配置管理类接口设计(4)
利用Eclipse进行HBase应用开发时,至少需要确定三个配置信息,如下表所示:#hbase config#HMaster服务部署主机及端口号hbase.master=hdp-wuyong:60010#Zookeeper端口号hbase.zookeeper.property.clientPort=2181#Zookeeper服务部署主机信息hbase.zookeeper.原创 2017-08-10 00:28:01 · 358 阅读 · 0 评论 -
Phoenix实现用SQL查询HBase
HBase,一个NoSQL数据库,可存储大量非关系型数据。HBase,可以用HBase shell进行操作,也可以用HBase Java api进行操作。HBase虽然是一个数据库,但是它的查询语句,很不太好用。要是能像使用Mysql等关系型数据库一样用sql语句操作HBase,那就很Perfect了。现有工具有很多Hive,Tez,Impala,Shark/Spark,Phoenix等。转载 2017-08-10 00:27:37 · 6119 阅读 · 0 评论 -
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
下文将介绍这些框架:仅批处理框架: Apache Hadoop 仅流处理框架: Apache Storm Apache Samza混合框架: Apache Spark Apache Flink大数据处理框架是什么?虽然“引擎”和“框架”之间的区别没有什么权威的定义,但大部分时候可以将前者定义为实际负责处理数据操作的组件,后者则可定义为承担类似作用的一系列组件。例如Apa翻译 2017-08-02 00:49:02 · 1497 阅读 · 0 评论