自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小强的博客

大数据开发,大数据分析师

  • 博客(23)
  • 收藏
  • 关注

原创 大数据开发实战系列之Spark电商平台

源于企业级电商网站的大数据统计分析平台,该平台以 Spark 框架为核心,对电商网站的日志进行离线和实时分析。该大数据分析平台对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行分析,根据平台统计出来的数据,辅助公司中的PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到用大数据技术来帮助提升...

2020-01-12 22:27:08 1423 2

原创 快速搭建Hadoop大数据开发环境

最近自己电脑的磁盘坏了,导致数据也没了。安装好系统之后就是各种弄环境了,之前的博客也写过Hadoop环境搭建Hadoop,Hive,HBase,Kafka,Spark,MySQL,Redis等等一系列的。之前记录的目的也是为了方便自己吧,但整个流程下来还是的花费几个小时。从前面的博客找到从虚拟机的网络配置,下载软件上传在修改配置挺麻烦的。这里再次做个汇总,以后做这个...

2020-01-11 15:00:42 914

原创 想入行大数据,面对开发语言和分析软件时,该如何选择?

先开门见山的给出结论:在职场中,学习任何一门技术,优先考虑工作需求本身,其次是职业发展所需,最后才是兴趣和好奇驱动。本末颠倒的话,不仅学习效率低下,而且还可能竹篮打水一场空,浪费时间成本。就拿我自己说事,读书期间在做「数学建模」时,因为不是计算机\软件相关的专业,唯一接触过的C语言(The C Programming Language)也只懂皮毛,所以每一次比赛为了去「收集数据、处理数据、分析...

2020-01-11 13:07:29 371

原创 大数据开发的26个专业术语

Java['dʒɑːvə]当前软件开发行业应用最广、就业量最大的编程语言,在各类编程语言排行榜长期位列第一。是企业软件开发的首选语言,也是Android系统的开发语言。Java吸取了C++语言的众多优点,是极好的面向对象编程语言,程序员可以很优雅的思维方式编写强大负责的软件程序。Maven['mevn]一种项目对象模型,可以通过一小段描述信息来管理项目的各种依赖之间的关系,是一个项...

2020-01-09 18:44:45 1042

原创 大数据开发知识汇总

大数据开发需要学习的知识很多,目前基本包括如下知识Linux、Zebra、Hadoop、Flume、Hive、Hbase、Phoenix、Storm、Kafka、Scala、SparkLinux:Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支...

2020-01-09 18:39:28 966

原创 大数据开发最火技术Kafka背后的“黑科技”

Kafka是由Apache软件基金会开发的一个开源流处理平台,被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于其他常见消息系统,Kafka在保障了大部分功能特性的同时,还在高吞吐、低延迟等方面有很突出的表现。这篇文章不同于其他介绍Kafka使用或实现的文章,只是谈谈Kafka用了什么“黑科技”使他在性能方面有这么突出的表现。消息顺序写入磁盘磁盘大多数都还是机械结构(SS...

2020-01-09 18:36:50 239

原创 大数据零基础入门问题答疑汇总

根据最新的Garter大数据产业网络播报,整整有15%的受访者仍然把“了解大数据是什么”视作他们的前三大挑战之一。前几天我因为社交网站得以和一个老朋友重新取得联系,星期天时他从费城赶到挪威来,就为了约我给他解答一个问题,我想这个问题对他来说一定很重要。他问:“Jane,你说你是做大数据分析的,那大数据到底是什么呢?”他是一个IT人,了解关于电脑的大部分知识,但是因为有太多人在尝试定义大数据...

2020-01-08 12:49:16 170

原创 大数据高可用集群环境安装与配置(05)——安装zookeeper集群

1. 下载安装包登录官网下载安装包https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/2. 执行命令下载并安装cd /usr/local/src/wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.4.14/zookeeper-3.4....

2020-01-08 12:45:07 126

原创 大数据高可用集群环境安装与配置(04)——安装JAVA运行环境

Hadoop运行在java环境,所以在安装Hadoop之前,需要安装好jdk提前下载好jdk安装包(jdk-8u161-linux-x64.tar.gz),将它上传到指定的安装目录当中,然后运行安装cd /usr/local/src/rz# 在弹出的窗口中,选择本地的jdk安装包上传到服务器tar -zxvf jdk-8u161-linux-x64.tar.gzmkdir /us...

2020-01-08 12:43:27 175

原创 大数据高可用集群环境安装与配置(03)——设置SSH免密登录

Hadoop的NameNode需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现Hadoop并没有提供SSH输入密码登录的形式,因此,为了能够顺利登录每台机器,需要将所有机器配置为NameNode可以免密登录由于是双master,所以需要在master与master_backup服务器上都生成ssh密钥,都可以免密登录其他服务器生成SSH公钥和私钥在ma...

2020-01-08 12:40:16 247

原创 大数据高可用集群环境安装与配置(02)——配置ntp服务

大数据高可用集群环境安装与配置(01)——服务器基础配置NTP服务概述NTP服务器【Network Time Protocol(NTP)】是用来使计算机时间同步化的一种协议,它可以使计算机对其服务器或时钟源(如石英钟,GPS等等)做同步化,它可以提供高精准度的时间校正(LAN上与标准间差小于1毫秒,WAN上几十毫秒),且可介由加密确认的方式来防止恶毒的协议攻击。时间按NTP服务器的等级传播...

2020-01-08 12:21:34 309

原创 大数据高可用集群环境安装与配置(01)——服务器基础配置

这段时间在做大数据方面的开发,使用Hadoop、HBase、Spark、Spart Streaming、Kafka、Docker、Kubernetes等等平台与组件,在服务器运维方面也在模仿着别人重复造轮子。要基于这些系统进行开发,就必须搭建一套稳定的服务器环境,虽然网上有大量的文章与教程,但在学习使用的过程中,还是踩了无数个坑,熬了不知多少个夜晚与周末,直到现在才算是真正上手,能快速搭建好平台,...

2020-01-08 12:16:11 511

原创 hadoop集群搭建

本文用以记录hadoop分布式集群搭建过程基础环境准备1、软件环境centos 6.5 三台服务器分配的IP地址:8/9/10jdk1.8hadoop使用2.7.4版本2、host配置和主机名(三台)修改四台服务器的hosts文件vim /etc/hosts192.168.0.8 hadoop-master192.168.0.9 hadoop-slave11...

2020-01-06 10:11:16 200

原创 什么是Hadoop

数据!数据!数据!今天,我们正被数据包围。全球 43 亿部电话、20 亿位互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等,使得机器产生和保留了越来越多的数据。数据的指数级增长对处于市场领导地位的互联网公司,如 Facebook、谷歌、雅虎、亚马逊、腾讯等提出了挑战。它们需要对TB 级别和 PB 级别的数据...

2020-01-06 10:05:04 706

原创 hadoop单机模式、伪分布式和分布式

hadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data ...

2020-01-06 10:02:08 230

原创 Hadoop分布式集群部署

Hadoop分布式集群部署一、系统参数配置优化1、系统内核参数优化配置修改文件/etc/sysctl.conf,添加如下配置,然后执行sysctl -p命令使配置生效net.ipv4.conf.all.arp_notify = 1kernel.shmmax = 500000000kernel.shmmni = 4096kernel.shmall = 400000...

2020-01-06 09:59:14 1170

原创 这是一篇最通熟易懂的Hadoop HDFS实践攻略!

本文主要帮您解决一下几个问题: HDFS是用来解决什么问题?怎么解决的? 如何在命令行下操作HDFS? 如何使用Java API来操作HDFS? 在了解基本思路和操作方法后,进一步深究HDFS具体的读写数据流程 学习并实践本文教程后,可以对HDFS有比较清晰的认识,并可以进行熟练操作,为后续学习Hadoop体系打好基础。目录:理论部分 HDFS...

2020-01-06 09:24:42 207

原创 当你还在讨论大数据的时候,你是否还在说Hadoop?

现在再写这篇文章感觉有些不合时宜,目前,貌似很少人再讨论大数据,也很少人再讨论hadoop。整理这篇文章,是为了探寻新的技术方向。先来看看几篇讨论文章(有删减):Hadoop是否已死,Spark称霸由于Hadoop的MapReduce高延迟的死穴,导致Hadoop无力处理很多对时间有要求的场景,人们对其批评越来越多,Hadoop无力改变现在而导致正在死亡。原先支持Hado...

2020-01-02 15:47:12 610

原创 大数据开发必须掌握的五大核心技术

大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。一、数据采集与预处理对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结...

2020-01-02 15:32:08 2021 1

原创 Hadoop还需要学吗?是选择拥抱云还是选择Hadoop?

Hadoop从诞生至今已经十三年了。2006年诞生大数据,2008年成为Apache的顶尖项目,成为国内外互联网大数据的标准配置之一。长久以来,想要入行大数据开发Hadoop也是必学。最近确对Hadoop哀声一片,更多喊得是拥抱云计算,摒弃Hadoop。目前有一个很悲观的问题,Hadoop正在快速的失去原本属于它的市场.该领域曾经的领头羊 Cloudera、Hortonworks...

2020-01-02 15:24:12 1057

原创 Flink DataStream API使用及原理

flink DataStream API使用及原理传统的大数据处理方式一般是批处理式的,也就是说,今天所收集的数据,我们明天再把今天收集到的数据算出来,以供大家使用,但是在很多情况下,数据的时效性对于业务的成败是非常关键的。Spark 和 Flink 都是通用的开源大规模处理引擎,目标是在一个系统中支持所有的数据处理以带来效能的提升。两者都有相对比较成熟的生态系统。是下一代大数据...

2020-01-02 13:25:22 1748

原创 为了让大数据工程师用好 Apache Flink,Yelp 实现了一个连接算法

SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 DataSet 承载结构化和半结构化数据来实现数据复杂查询处理,提供的 DSL可以直接使用 scala 语言完成 Sql 查询,同时也使用 thriftserver 提供服务化的 Sql 查询功能。上篇1.SparkSqlSparkSql 是架构在 Spark 计算框架之上的分布式...

2020-01-02 13:22:49 181

原创 如何基于 Flink 与 TensorFlow 构建实时智能异常检测平台?

Flink 已经渐渐成为实时计算引擎的首选之一,从简单的实时 ETL 到复杂的 CEP 场景,Flink 都能够很好的驾驭。本文整理自携程实时计算负责人潘国庆在QCon 全球软件开发大会(北京站)2019的演讲,他介绍了携程如何基于 Flink 与 TensorFlow 构建实时智能异常检测平台,以解决规则告警系统准确率低、时效性低、规则配置复杂与耗费人力等诸多问题,实现了业务指标毫秒级延迟与智能...

2020-01-02 13:21:15 709 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除