技术博览
文章平均质量分 93
本人爱好研究学习大数据,人工智能等方向,希望通过自己的不断学习,记录自己的点点滴滴,能帮助更多的人
GOD_WAR
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
大数据开发常用命令大全 大全
目录Linux(vi/vim)HadoopZookeeperKafkaHiveRedisFlinkLinux(vi/vim)一般模式语法 功能描述 yy 复制光标当前一行 y数字y 复制一段(从第几行到第几行) p 箭头移动到目原创 2021-11-23 16:47:12 · 438 阅读 · 0 评论 -
一致性协议算法-2PC、3PC、Paxos、Raft、ZAB、NWR超详细解析
一致性协议算法-2PC、3PC、Paxos、Raft、ZAB、NWR超详细解析背景在常见的分布式系统中,总会发生诸如机器宕机或网络异常(包括消息的延迟、丢失、重复、乱序,还有网络分区)等情况。一致性算法需要解决的问题就是如何在一个可能发生上述异常的分布式系统中,快速且正确地在集群内部对某个数据的值达成一致,并且保证不论发生以上任何异常,都不会破坏整个系统的一致性。CAP 定理CAP 理论告诉我们,一个分布式系统不可能同时满足一致性(C:Consistency),可用性(A: Ava.转载 2020-12-12 16:34:49 · 1449 阅读 · 1 评论 -
大数据量下的集合过滤—Bloom Filter
算法背景如果想判断一个元素是不是在一个集合里,一般想到的是将集合中所有元素保存起来,然后通过比较确定。链表、树、散列表(又叫哈希表,Hash table)等等数据结构都是这种思路,存储位置要么是磁盘,要么是内存。很多时候要么是以时间换空间,要么是以空间换时间。在响应时间要求比较严格的情况下,如果我们存在内里,那么随着集合中元素的增加,我们需要的存储空间越来越大,以及检索的时间越来越长,导致内存开销太大、时间效率变低。此时需要考虑解决的问题就是,在数据量比较大的情况下,既满足时间要求,又满足空间的原创 2020-08-10 22:49:22 · 341 阅读 · 0 评论 -
大数据常用图谱
大纲本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,这些公司更希望面试者具备哪些技能。本文不会对某一个知识点进行详细的展开,后续会陆续出专题文章,希望读者能当成一个学习或者复习的大纲,用以查漏补缺。语言基础篇Java基础篇整个大数据开发技术栈我们从实时性的角度来看,主要包含了离线计算和实时计算两大部分,而整个大数据生态中的框架绝大部分都是用 Java 开发或者兼...原创 2020-07-14 21:50:12 · 2617 阅读 · 0 评论 -
Flink VS Spark 部署模式对比
主要对Flink和Spark集群的standalone模式及on yarn模式进行分析对比。Flink与Spark的应用调度和执行的核心区别是Flink不同的job在执行时,其task同时运行在同一个进程TaskManager进程中;Spark的不同job的task执行时,会启动不同的executor来调度执行,job之间是隔离的。Standalone模式Flink 和Spark均支持standalone模式(不依赖其他集群资源管理和调度)的部署,启动自身的Master/Slave架构的集群管.原创 2020-06-23 09:04:08 · 653 阅读 · 0 评论 -
售前认识
售前这个工作,不像销售和开发技术人员,大部分人都觉得很多售前能力很强,但是到底强在哪里?什么才叫强?说不出个一二三四五。很多应聘售前的人员,开口就要很高的工资,但是讲不明白,为什么你值这个钱?你值这个钱应该是你创造的价值值这个钱,而不是市场上这个岗位是这个价格,你需要证明或阐述,你为什么值这个钱?总体给人的感觉就是:对自己思考和总结的不够,看问题的高度不够。下面就来讲讲我自己对售前的一些看法和...原创 2020-04-22 18:58:07 · 3336 阅读 · 0 评论 -
Spark SQL 架构简介
Spark SQL 架构简介简单看一下Spark SQL 的架构。下面这张图描述了一条 SQL 提交之后需要经历的几个阶段,结合这些阶段就可以看到在哪些环节可以做优化。很多时候,做数据仓库建模的同学更倾向于直接写 SQL 而非使用 Spark 的 DSL。一条 SQL 提交之后会被 Parser 解析并转化为 Unresolved Logical Plan。它的重点是 Lo...原创 2020-02-29 17:37:10 · 900 阅读 · 0 评论 -
spark Executor启动过程分析
前言本篇文章将以问答的方式对Executor的启动进行分析。1. executor在什么时候开始启动?新app的加入和集群资源的变动将调用到Master的schedule方法, 这个时候会进行startExecutorsOnWorkers()进行executor的调度和启动。 (资源申请的是在 appclient 的 registerApplication 消息中)2.Execut...原创 2020-02-25 15:48:29 · 251 阅读 · 0 评论 -
大数据常用技术栈
提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展,尤以Hadoop和Spark最为突出,已构建起庞大的技术生态体系圈。首先通过一张图来了解一下目前大数据领域常用的一...原创 2020-02-01 16:31:14 · 849 阅读 · 0 评论 -
终于知道post和get的区别
01 特点1.1 http的特点基于tcp/ip、一种网络应用层协议、超文本传输协议HyperText Transfer Protocol 工作方式:客户端请求服务端应答的模式 快速:无状态连接 灵活:可以传输任意对象,对象类型由Content-Type标记 客户端请求request消息包括以下格式:请求行(request line)、请求头部(header)、空行、请求数...原创 2020-02-01 16:26:26 · 2776 阅读 · 0 评论 -
中台技术简介
中台业务能力全景中台技术全景移动中台业务中台 技术架构图 技术选型ServiceMesh...数据中台技术中台各技术组件的高可以部署及多租户问题的解决。redis,mq,db......研发(效能)中台云平台*容器云平台openshift...原创 2019-12-24 16:35:06 · 3699 阅读 · 0 评论 -
Cloudera Manager+CDH构建大数据平台
一、Cloudera Manager介绍 Cloudera Manager(简称CM)是Cloudera公司开发的一款大数据集群安装部署利器,这款利器具有集群自动化安装、中心化管理、集群监控、报警等功能,使得安装集群从几天的时间缩短在几小时以内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。所以为了同学们能够快速搭建该平台,写出以下教程仅供参考,有什么不足之处请提出,加以改正...原创 2019-12-24 16:12:07 · 327 阅读 · 1 评论 -
大数据常用技术栈
提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展,尤以Hadoop和Spark最为突出,已构建起庞大的技术生态体系圈。首先通过一张图来了解一下目前大数据领域常用的一...原创 2019-12-10 20:26:05 · 244 阅读 · 0 评论 -
数据仓库架构分层
数据仓库架构分层数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。ODS层:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前...原创 2019-11-27 20:41:53 · 444 阅读 · 0 评论 -
netstat命令 常用参数
前言在调试网络程序或者定位网络相关问题时,有一个命令不得不知,它就是netstat。netstat命令用于查看网络连接,路由表,网络接口统计数据, 虚拟连接等信息。netstat的选项很多,但是本文准备介绍一些netstat命令的实用技巧。查看某个端口是否被占用如果你遇到“Address already in use”的错误,那么你就需要好好看看是不是端口已经被占用了。-a(all...原创 2019-11-23 09:03:00 · 4403 阅读 · 0 评论 -
Hive案例之微博
数据下载链接:https://pan.baidu.com/s/1OGyO2jFj393-Dcq3eosbjA&shfl=sharepset提取码:jtdi数据案例(取其中两个文件即可):[{"beCommentWeiboId":"","beForwardWeiboId":"","catchTime":"1387157643","commentCount":"682","...原创 2019-11-10 19:33:56 · 661 阅读 · 0 评论 -
Hive案例之影评
现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji...原创 2019-11-10 19:24:11 · 737 阅读 · 0 评论 -
Hive高级操作
hive的数据类型1.基本类型整型:tinyint smallint int bigint浮点型:float double布尔:boolean字符串:string时间戳类型:timestamp2.复杂数据类型2.1array数组类似于java中的array,单值存储多个元素的,每一个元素一个值id name score1 zs 3...原创 2019-11-10 14:07:17 · 363 阅读 · 0 评论 -
Apache Spark 3.0 预览版正式发布,多项重大功能发布
Apache Spark 3.0 预览版正式发布,多项重大功能发布早上 06:53(2019年11月08日 06:53) 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 ApacheSpark 3.0预览版正式发布,这个版本主要是为了对即将发布的 ApacheSpark 3.0版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个稳定的版本,它...转载 2019-11-14 10:31:43 · 2476 阅读 · 0 评论 -
阿里云Spark Shuffle的优化
Spark Shuffle介绍 Smart Shuffle设计 性能分析Spark Shuffle流程Spark 0.8及以前 Hash Based Shuffle Spark 0.8.1 为Hash Based Shuffle引入File Consolidation机制 Spark 0.9 引入ExternalAppendOnlyMap Spark 1.1 引入Sort B...原创 2019-11-07 17:48:38 · 189 阅读 · 0 评论 -
ElasticSearch-SQL使用方式总结
ES-SQL插件此插件提供了es 的类sql查询的相关接口。支持绝大多数的sql查询支持github地址:https://github.com/NLPchina/elasticsearch-sql环境准备需安装elasticsearch node.js npm下载安装进入es根目录,执行如下命令(注意插件版本号需要同自身es版本保持一致)./bin/e...原创 2019-11-06 15:15:41 · 1841 阅读 · 0 评论 -
Elasticsearch简介与实战
什么是Elasticsearch? Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎,它的底层是开源库Apache Lucene。 Lucene 可以说是当下最先进、高性能、全功能的搜索引擎库——无论是开源还是私有,但它也仅仅只是一个库。为了充分发挥其功能,你需要使用 Java 并将 Lucene 直接集成到应用程序中。 更糟糕的是,您可能需要获...原创 2019-11-06 15:12:52 · 89 阅读 · 0 评论 -
Hive hql几道公司笔试面试题2
1.现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思:用户名uid,月份month,访问次数countA,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2...原创 2019-11-04 11:19:00 · 1371 阅读 · 1 评论 -
HBase启用压缩
HBase启用压缩HBase 创建表时默认压缩为 NONE ,即没有压缩,除非指定。目前 HBase 主要支持 4 种压缩方式:GZ(GZIP),SNAPPY,LZO,LZ4。1. 压缩算法的比较算法 压缩比 压缩 解压 GZIP 13.4% 21MB/s 118MB/s LZO 20.5% 135MB/s 410...原创 2019-11-01 16:45:23 · 1778 阅读 · 0 评论 -
数据仓库
数据仓库1.1 什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。1.2 数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。2)...原创 2019-11-01 15:22:15 · 321 阅读 · 0 评论 -
Impala
一、Impala的基本概念1.1 什么是ImpalaCloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。1.2 Impala的优缺点1.2.1 优点基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O...原创 2019-11-01 15:05:18 · 727 阅读 · 0 评论 -
CDH配置HA模式
一、CDH配置HDFS的HA模式1、进入HDFS集群——>点击“操作”——>点击“启用High Availability”2、进入引导界面配置nameservice名称,可以使用默认的3、点击“继续”之后配置第二个namenode所在的机器4、配置JournalNode进程所在的机器5、点击“继续”之后配置...原创 2019-11-01 14:55:23 · 1874 阅读 · 0 评论 -
CM和CDH
零、前言-CM和CDH的区别1.Cloudera Manager包括server端和agent;server端主要作用是监控集群,分发配置集群等,agent端主管集群各节点2.CDH是CM的安装包,本地或者云端,其中包括hadoop的生态系统需要的所有组件,通过Cloudera Manager统一管理和安装3.CDH除了可以通过cm安装也可以通过yum,tar,rpm安装一、Clo...原创 2019-11-01 14:53:00 · 2257 阅读 · 0 评论 -
HBase优化
HBase优化1、高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群(如果没有开启则跳过此步)$ bin/stop-hbase.sh在conf目录...原创 2019-11-01 14:47:09 · 149 阅读 · 0 评论 -
Hive企业级调优
企业级调优1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,...原创 2019-11-01 14:35:58 · 135 阅读 · 0 评论 -
Flume拦截器
一、Flume拦截器时间戳拦截器Timestamp.conf#1.定义agent名, source、channel、sink的名称a4.sources = r1a4.channels = c1a4.sinks = k1#2.具体定义sourcea4.sources.r1.type = spooldira4.sources.r1.spoolDir = /opt/modul...原创 2019-11-01 14:23:23 · 304 阅读 · 0 评论 -
阿里数据银行中的常见指标定义
数据银行使用的比较多,其中很多的指标概念不是很了解,这里记录下,备忘AIPL定义A 认知Aware 认知: 消费者相对被动与品牌接触。包括:曝光&点击: 15天内,被阿里妈妈广告曝光过或点击过阿里妈妈广告;或被优酷广告曝光过;或被超级品牌日天猫手机客户端的资源位曝光过;或被欢聚日活动曝光过;或被聚划算曝光过;或被淘抢购曝光过;或被手淘导购平台(有好货、生活研究所)的商品曝光...原创 2019-11-01 11:34:25 · 4391 阅读 · 0 评论 -
Apache Kylin查询性能优化
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区,可在亚秒内查询巨大的Hive表。在Apache Kylin的实际部署过程中,SQL查询有时并不能如预期在很短的时间内完成,需要开发人员进行有针对性的分析和优化。在进行分析、优化之前,我们需要先了解Apache...原创 2019-10-30 22:22:50 · 488 阅读 · 0 评论 -
一文读懂Apache Kylin
“麒麟出没,必有祥瑞。” —— 中国古谚语前言 随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临。但是海量数据的收集只是大数据技术的第一步,如何让数据产生价值才是大数据领域的终极目标。Hadoop的出现解决了数据存储问题,但如何对海量数据进行OLAP查询,却一直...原创 2019-10-30 22:16:07 · 289 阅读 · 1 评论 -
Kylin基础教程(一)
一、Kylin介绍1.1 现状 Hadoop于2006年初步实现,改变了企业级的大数据存储(基于HDFS)和批处理(主要基于MR)问题,10几年过去了,数据量随着互联网的发展井喷式增长,如何高速、低延迟的分析数据成为后续面临的挑战,辟如我们面临的一些质疑:Hadoop老矣,尚能饭否? 其中也出现过各种各样的框架来协助Hadoop降低访问数据的延迟,比如列存储框架(Colum...原创 2019-10-30 21:56:43 · 2558 阅读 · 0 评论 -
Kafka运维大全!!!优化、监控、故障处理……
Kafka概念Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的、可划分的、冗余备份的、持久性的日志服务。它主要用于处理活跃的流式数据。分布式系统,易于向外扩展。所有的producer、broker和consumer都会有多个,均为分布式的。无需停机即可扩展机器。Kafka设计方案消息持久化及其缓存磁盘...原创 2019-10-25 19:54:14 · 555 阅读 · 0 评论 -
Hive hql几道公司笔试面试题
1.求出要求格式的数据数据:字段含义:日期,MAC,颜色,销量day,mac,color,num20171011 1292 金色 120171011 1292 金色 1420171011 1292 金色 220171011 1292 金色 1120171011 1292 黑色 22...原创 2019-10-24 14:59:51 · 1064 阅读 · 0 评论 -
大数据分析应用的九大领域
随着大数据的应用越来越广泛,应用的行业也越来越低,我们每天都可以看到大数据的一些新奇的应用,从而帮助人们从中获取到真正有用的价值。很多组织或者个人都会受到大数据的分析影响,但是大数据是如何帮助人们挖掘出有价值的信息呢?下面就让我们一起来看看九个价值非常高的大数据的应用,这些都是大数据在分析应用上的关键领域: 1.理解客户、满足客户服务需求 大数据的应用目前在这领域是最广为人知的...原创 2019-10-24 14:32:46 · 544 阅读 · 0 评论 -
游戏常用数据分析指标汇总
乐元素移动游戏运营数据分析指标汇总一、用户获取1、mobile用户获取流程点击-下载-安装-激活-注册-DNU点击:点击广告页或者点击广告链接数 下载:点击后成功下载用户数 安装:下载程序并成功安装用户数 激活:成功安装并首次激活应用程序 注册:产生user_id DNU:产生user_id并且首次登陆关注问题:关注Mobile游戏从推广到DNU每个步骤的转换,提高...原创 2019-10-22 21:31:55 · 15937 阅读 · 1 评论 -
《flink基础教程》笔记
第一章:为何选择flink1.2 流处理应用:对数据进行高吞吐、低延迟和准确的处理,比如银行的24小时金融服务,需要及时检测出用户行为异常的应用程序;电信行业,如果不能很好地处理流数据,就不能在某个移动通信基站出现流量高峰前预先将流量分配给其他基站。除了低延迟和高吞吐,流处理框架还应该有效的处理异常中断,以及对外预警。1.3 流处理技术演变Storm(先锋)很难实现高吞吐。【P1...原创 2019-10-20 20:52:48 · 293 阅读 · 0 评论