2020年01月_xyzkenan

原创大数据开发实战系列之Spark电商平台

源于企业级电商网站的大数据统计分析平台，该平台以 Spark 框架为核心，对电商网站的日志进行离线和实时分析。该大数据分析平台对电商网站的各种用户行为（访问行为、购物行为、广告点击行为等）进行分析，根据平台统计出来的数据，辅助公司中的PM（产品经理）、数据分析师以及管理人员分析现有产品的情况，并根据用户行为分析结果持续改进产品的设计，以及调整公司的战略和业务。最终达到用大数据技术来帮助提升...

2020-01-12 22:27:08 1423 2

原创快速搭建Hadoop大数据开发环境

最近自己电脑的磁盘坏了，导致数据也没了。安装好系统之后就是各种弄环境了，之前的博客也写过Hadoop环境搭建Hadoop，Hive，HBase，Kafka，Spark，MySQL，Redis等等一系列的。之前记录的目的也是为了方便自己吧，但整个流程下来还是的花费几个小时。从前面的博客找到从虚拟机的网络配置，下载软件上传在修改配置挺麻烦的。这里再次做个汇总，以后做这个...

2020-01-11 15:00:42 914

先开门见山的给出结论：在职场中，学习任何一门技术，优先考虑工作需求本身，其次是职业发展所需，最后才是兴趣和好奇驱动。本末颠倒的话，不仅学习效率低下，而且还可能竹篮打水一场空，浪费时间成本。就拿我自己说事，读书期间在做「数学建模」时，因为不是计算机\软件相关的专业，唯一接触过的C语言（The C Programming Language）也只懂皮毛，所以每一次比赛为了去「收集数据、处理数据、分析...

2020-01-11 13:07:29 371

原创大数据开发的26个专业术语

Java['dʒɑːvə]当前软件开发行业应用最广、就业量最大的编程语言，在各类编程语言排行榜长期位列第一。是企业软件开发的首选语言，也是Android系统的开发语言。Java吸取了C++语言的众多优点，是极好的面向对象编程语言，程序员可以很优雅的思维方式编写强大负责的软件程序。Maven['mevn]一种项目对象模型，可以通过一小段描述信息来管理项目的各种依赖之间的关系，是一个项...

2020-01-09 18:44:45 1042

原创大数据开发知识汇总

大数据开发需要学习的知识很多，目前基本包括如下知识Linux、Zebra、Hadoop、Flume、Hive、Hbase、Phoenix、Storm、Kafka、Scala、SparkLinux：Linux是一套免费使用和自由传播的类Unix操作系统，是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支...

2020-01-09 18:39:28 966

原创大数据开发最火技术Kafka背后的“黑科技”

Kafka是由Apache软件基金会开发的一个开源流处理平台，被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于其他常见消息系统，Kafka在保障了大部分功能特性的同时，还在高吞吐、低延迟等方面有很突出的表现。这篇文章不同于其他介绍Kafka使用或实现的文章，只是谈谈Kafka用了什么“黑科技”使他在性能方面有这么突出的表现。消息顺序写入磁盘磁盘大多数都还是机械结构（SS...

2020-01-09 18:36:50 239

原创大数据零基础入门问题答疑汇总

根据最新的Garter大数据产业网络播报，整整有15%的受访者仍然把“了解大数据是什么”视作他们的前三大挑战之一。前几天我因为社交网站得以和一个老朋友重新取得联系，星期天时他从费城赶到挪威来，就为了约我给他解答一个问题，我想这个问题对他来说一定很重要。他问：“Jane，你说你是做大数据分析的，那大数据到底是什么呢?”他是一个IT人，了解关于电脑的大部分知识，但是因为有太多人在尝试定义大数据...

2020-01-08 12:49:16 170

原创大数据高可用集群环境安装与配置（05）——安装zookeeper集群

1. 下载安装包登录官网下载安装包https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/2. 执行命令下载并安装cd /usr/local/src/wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.14/zookeeper-3.4....

2020-01-08 12:45:07 126

原创大数据高可用集群环境安装与配置（04）——安装JAVA运行环境

Hadoop运行在java环境，所以在安装Hadoop之前，需要安装好jdk提前下载好jdk安装包（jdk-8u161-linux-x64.tar.gz），将它上传到指定的安装目录当中，然后运行安装cd /usr/local/src/rz# 在弹出的窗口中，选择本地的jdk安装包上传到服务器tar -zxvf jdk-8u161-linux-x64.tar.gzmkdir /us...

2020-01-08 12:43:27 175

原创大数据高可用集群环境安装与配置（03）——设置SSH免密登录

Hadoop的NameNode需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现Hadoop并没有提供SSH输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置为NameNode可以免密登录由于是双master，所以需要在master与master_backup服务器上都生成ssh密钥，都可以免密登录其他服务器生成SSH公钥和私钥在ma...

2020-01-08 12:40:16 247

原创大数据高可用集群环境安装与配置（02）——配置ntp服务

大数据高可用集群环境安装与配置（01）——服务器基础配置NTP服务概述NTP服务器【Network Time Protocol（NTP）】是用来使计算机时间同步化的一种协议，它可以使计算机对其服务器或时钟源（如石英钟，GPS等等)做同步化，它可以提供高精准度的时间校正（LAN上与标准间差小于1毫秒，WAN上几十毫秒），且可介由加密确认的方式来防止恶毒的协议攻击。时间按NTP服务器的等级传播...

2020-01-08 12:21:34 309

原创大数据高可用集群环境安装与配置（01）——服务器基础配置

这段时间在做大数据方面的开发，使用Hadoop、HBase、Spark、Spart Streaming、Kafka、Docker、Kubernetes等等平台与组件，在服务器运维方面也在模仿着别人重复造轮子。要基于这些系统进行开发，就必须搭建一套稳定的服务器环境，虽然网上有大量的文章与教程，但在学习使用的过程中，还是踩了无数个坑，熬了不知多少个夜晚与周末，直到现在才算是真正上手，能快速搭建好平台，...

2020-01-08 12:16:11 511

原创 hadoop集群搭建

本文用以记录hadoop分布式集群搭建过程基础环境准备1、软件环境centos 6.5 三台服务器分配的IP地址：8/9/10jdk1.8hadoop使用2.7.4版本2、host配置和主机名（三台）修改四台服务器的hosts文件vim /etc/hosts192.168.0.8 hadoop-master192.168.0.9 hadoop-slave11...

2020-01-06 10:11:16 200

原创什么是Hadoop

数据！数据！数据！今天，我们正被数据包围。全球 43 亿部电话、20 亿位互联网用户每秒都在不断地产生大量数据，人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等，使得机器产生和保留了越来越多的数据。数据的指数级增长对处于市场领导地位的互联网公司，如 Facebook、谷歌、雅虎、亚马逊、腾讯等提出了挑战。它们需要对TB 级别和 PB 级别的数据...

2020-01-06 10:05:04 706

原创 hadoop单机模式、伪分布式和分布式

hadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data ...

2020-01-06 10:02:08 230

原创 Hadoop分布式集群部署

Hadoop分布式集群部署一、系统参数配置优化1、系统内核参数优化配置修改文件/etc/sysctl.conf，添加如下配置，然后执行sysctl -p命令使配置生效net.ipv4.conf.all.arp_notify = 1kernel.shmmax = 500000000kernel.shmmni = 4096kernel.shmall = 400000...

2020-01-06 09:59:14 1170

原创这是一篇最通熟易懂的Hadoop HDFS实践攻略！

本文主要帮您解决一下几个问题： HDFS是用来解决什么问题？怎么解决的？如何在命令行下操作HDFS？如何使用Java API来操作HDFS？在了解基本思路和操作方法后，进一步深究HDFS具体的读写数据流程学习并实践本文教程后，可以对HDFS有比较清晰的认识，并可以进行熟练操作，为后续学习Hadoop体系打好基础。目录：理论部分 HDFS...

2020-01-06 09:24:42 207

原创当你还在讨论大数据的时候，你是否还在说Hadoop?

现在再写这篇文章感觉有些不合时宜，目前，貌似很少人再讨论大数据，也很少人再讨论hadoop。整理这篇文章，是为了探寻新的技术方向。先来看看几篇讨论文章(有删减)：Hadoop是否已死，Spark称霸由于Hadoop的MapReduce高延迟的死穴，导致Hadoop无力处理很多对时间有要求的场景，人们对其批评越来越多，Hadoop无力改变现在而导致正在死亡。原先支持Hado...

2020-01-02 15:47:12 610

原创大数据开发必须掌握的五大核心技术

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。一、数据采集与预处理对于各种来源的数据，包括移动互联网数据、社交网络的数据等，这些结...

2020-01-02 15:32:08 2021 1

原创 Hadoop还需要学吗？是选择拥抱云还是选择Hadoop？

Hadoop从诞生至今已经十三年了。2006年诞生大数据，2008年成为Apache的顶尖项目，成为国内外互联网大数据的标准配置之一。长久以来，想要入行大数据开发Hadoop也是必学。最近确对Hadoop哀声一片，更多喊得是拥抱云计算，摒弃Hadoop。目前有一个很悲观的问题，Hadoop正在快速的失去原本属于它的市场.该领域曾经的领头羊 Cloudera、Hortonworks...

2020-01-02 15:24:12 1057

原创 Flink DataStream API使用及原理

flink DataStream API使用及原理传统的大数据处理方式一般是批处理式的，也就是说，今天所收集的数据，我们明天再把今天收集到的数据算出来，以供大家使用，但是在很多情况下，数据的时效性对于业务的成败是非常关键的。Spark 和 Flink 都是通用的开源大规模处理引擎，目标是在一个系统中支持所有的数据处理以带来效能的提升。两者都有相对比较成熟的生态系统。是下一代大数据...

2020-01-02 13:25:22 1748

原创为了让大数据工程师用好 Apache Flink，Yelp 实现了一个连接算法

SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎，使用 DataFrame 和 DataSet 承载结构化和半结构化数据来实现数据复杂查询处理，提供的 DSL可以直接使用 scala 语言完成 Sql 查询，同时也使用 thriftserver 提供服务化的 Sql 查询功能。上篇1.SparkSqlSparkSql 是架构在 Spark 计算框架之上的分布式...

2020-01-02 13:22:49 181

原创如何基于 Flink 与 TensorFlow 构建实时智能异常检测平台？

Flink 已经渐渐成为实时计算引擎的首选之一，从简单的实时 ETL 到复杂的 CEP 场景，Flink 都能够很好的驾驭。本文整理自携程实时计算负责人潘国庆在QCon 全球软件开发大会（北京站）2019的演讲，他介绍了携程如何基于 Flink 与 TensorFlow 构建实时智能异常检测平台，以解决规则告警系统准确率低、时效性低、规则配置复杂与耗费人力等诸多问题，实现了业务指标毫秒级延迟与智能...

2020-01-02 13:21:15 709 1

小强的博客