BigData
执于代码
通信金融互联网行业,开发工程师
展开
-
聊一聊数据采集
1.什么是采集在一般的分层业务系统中,数据采集都是一个非常重要的部分:主要负责数据的输入。2.为什么需要采集在传统的管理系统中,一般的业务系统都是采集,存储,显示 ,报表,这是传统分层模型下的架构方式下的业务功能;我们重点看一下数据采集部分;3.场景分析1.第一种数据采集就是基于请求式样的采集,意味着请求即是采集。常见的情景就是HTTP 请求,把大量请求作为数据源存储都DB中。2.第二种就是基于网页版的数据采集,前端使用打点技术,没隔一段时间完成数据采集,存储到DB中。3....原创 2021-03-10 11:10:44 · 546 阅读 · 2 评论 -
你知道大数据中的五种采集方式吗?
1.什么是采集在一般的分层业务系统中,数据采集都是一个非常重要的部分:主要负责数据的输入。2.为什么需要采集在传统的管理系统中,一般的业务系统都是采集,存储,显示 ,报表,这是传统分层模型下的架构方式下的业务功能;我们重点看一下数据采集部分;3.场景分析1.第一种数据采集就是基于请求式样的采集,意味着请求即是采集。常见的情景就是HTTP 请求,把大量请求作为数据源存储都DB中。2.第二种就是基于网页版的数据采集,前端使用打点技术,没隔一段时间完成数据采集,存储到DB中。3.最后一种就是数据钻取原创 2022-05-17 17:45:16 · 5630 阅读 · 0 评论 -
大数据学习技术栈索引
参考资料:https://www.jianshu.com/p/c688e47dae1d原创 2020-03-16 22:48:00 · 133 阅读 · 0 评论 -
大数据面试题目
hive中shuffle的优化 压缩 压缩可以使磁盘上存储的数据量变小,通过降低I/O来提高查询速度。 对hive产生的一系列MR中间过程启用压缩 set hive.exec.compress.intermediate=true;set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.Snapp...原创 2020-02-27 21:13:32 · 264 阅读 · 0 评论 -
大数据面试题汇总
1.Hadoop中有哪些组件?Hadoop=HDFS+Yarn+MapReduce+Hive+Hbase+...1).HDFS:分布式文件存储系统主:namenode,secondarynamenode从:datanode2).Yarn...原创 2020-02-24 15:40:20 · 207 阅读 · 0 评论 -
dahuju
1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3. 伪分布模式中的注意点?伪分布式...原创 2020-02-22 16:03:48 · 192 阅读 · 0 评论 -
大数据面试题
目录最近由于要准备面试就开始提早看些面试、笔试题。以下是自己总结的一些经常出现、有价值的试题,包含hadoop、hive、hbase、storm、spark等。答案仅供参考,如有错误,请指出。试题不定时更新。hadoop相关试题MapTask并行机度是由什么决定的?由切片数量决定的。MR是干什么的?MR将用户编写的业务逻辑代码和自带的默认组件结合起来组成一个完整的分布式应用程...原创 2020-02-20 18:35:01 · 170 阅读 · 0 评论 -
Spark 时间窗口的 worldcount 在 windows 环境下运行
pom 依赖<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler...原创 2020-02-13 17:02:13 · 222 阅读 · 0 评论 -
K8s常见问题分析&解决(基础问题)
详细描述: 部分工作节点pod无法启动(处于ContainerCreateing状态)日志: failed to set up ..... Network: failed to set bridge addr解题思路: 日志部分出现网络相关的失败LOG,问题调查的方向主要查看对应网络节点的状态原因分析: 当前节点被反复注册,导致flannel网络出现问题解决步...原创 2020-02-13 16:56:25 · 2394 阅读 · 0 评论 -
bigadata 另一种搭建方式
1.logstathttps://blog.csdn.net/o0mm0o/article/details/765783052.kafkahttps://www.jianshu.com/p/d3e963ff8b703.aiiuxio/hbasehttp://www.sohu.com/a/240684406_3158394.hivehttp://hive.apache....原创 2019-09-11 22:55:49 · 96 阅读 · 0 评论 -
一种构建方式:
1.rokectMQhttps://blog.csdn.net/wangmx1993328/article/details/815361682.redishttps://www.runoob.com/redis/redis-install.html3.spark:https://www.cnblogs.com/dion-90/articles/9058500.html4.z...原创 2019-09-10 23:11:39 · 119 阅读 · 0 评论 -
大数据另一个组件构建方式
1.kafka 安装与部署:https://blog.csdn.net/hg_harvey/article/details/79174104因为是Java的,所以先安装windows 做个demo。for windows:https://www.jianshu.com/p/ce203d4e2f412.HBASE 安装与部署https://blog.csdn.ne...原创 2019-09-10 22:37:50 · 94 阅读 · 0 评论 -
TIDB安装部署
1.sqoop 安装:需要LISnux 环境:https://www.cnblogs.com/pejsidney/p/8945198.html2。TIDB的安装部署:需要Linux环境和docket的环境。https://www.cnblogs.com/zuokun/p/11007063.htm仅仅支持Linux环境。3。安装presto 安装部署:参考博...原创 2019-09-08 18:55:03 · 624 阅读 · 1 评论 -
Hbase demo 开发版本测试:
1.下载代码版本:2.架构分析:3.基础知识:PRC 调用, IO模型:4.源码分析:主要基于四大组件完成,client,和 zk 相对简单。主要分析:habse master 和hbase regionserver:hbase reiginonserver:类图:...原创 2019-09-14 23:27:47 · 171 阅读 · 0 评论 -
OSchina
存储层 : hydrabasehttp://hydrabase.org/ 战时无。原创 2019-09-08 18:17:22 · 906 阅读 · 0 评论 -
大数据平台搭建
1.canal实现https://www.jianshu.com/p/9eab659a85c12.kafka3.cephhttps://www.jianshu.com/p/93d9018e2fa14.Yarnhttps://yarn.bootcss.com/docs/usage/5.Flinkhttps://blog.csdn.net/xu470438000/...原创 2019-09-11 23:56:30 · 278 阅读 · 0 评论 -
kafka 常见的配置文件参数和原理架构
1.kafka 配置参数https://www.cnblogs.com/alan319/p/8651434.html2,kafka 原理架构:https://www.jianshu.com/p/4bf0078851162.ceph 参数和原理:https://www.jianshu.com/p/cc3ece850433https://www.cnblogs.co...原创 2019-09-13 13:31:36 · 144 阅读 · 0 评论 -
爬虫代码,kafka 源码解析。
1.爬虫代码不再赘述,见gitlub, 源码之中,了无秘密,基于原型demo 创建的爬虫的源码。2.kafka 源码分析:一、Kafka消费者源码介绍1.分区消费模式源码介绍分区消费模式直接由客户端(任何高级语言编写)使用Kafka提供的协议向服务器发送RPC请求获取数据,服务器接受到客户端的RPC请求后,将数据构造成RPC响应,返回给客户端,客户端解析相应的RPC响应获取数据...原创 2019-09-13 17:12:44 · 260 阅读 · 0 评论 -
RPC_hbase HreginonServer
RPC是hbase中Master,RegionServer和Client三者之间通信交流的纽带。了解hbase的rpc机制能够为通过源码学习hbase奠定良好的基础。因为了解了hbase的rpc机制能够很快通过debug深入理解hbase各种机制(比方说flush,compaction,scan等请求)的流程。同时也便于碰到问题时,通过源码分析找到原因,毕竟源码面前了无秘密。1,RPC简介...原创 2019-09-14 13:41:41 · 356 阅读 · 0 评论 -
Weka源码分析:
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。Weka是一个开源的软件,阅读并理解其源代码可以帮助我们更好的理解算法的细节,同时也能够扩展其算法以获得更广泛的应用。但是现在公开的资料中对weka源代码分析的内容很少,所以本博客推出weka源代码分析系列,将针对weka中实现各种...原创 2019-09-19 00:14:20 · 408 阅读 · 0 评论 -
kafka 性能参数优化
1.partition数量配置partition数量由topic的并发决定,并发少则1个分区就可以,并发越高,分区数越多,可以提高吞吐量。创建topic时指定topic数量推荐一款kafka监控工具kafkatool ,可用来创建topic。2.日志保留策略设置#当kafka broker的被写入海量消息后,会生成很多数据文件,占用大量磁盘空间,kafka默认是保留7天,...转载 2019-09-19 23:17:57 · 967 阅读 · 0 评论 -
hbase 性能调优
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。...转载 2019-09-19 23:42:59 · 161 阅读 · 0 评论 -
如何保证kafka 的消息机制
1.kafka 知识总结1、kafka是什么类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。kafka是一个生产-消费模型。Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。数据的分发策略由producer决定,默认是defaultPartition Utils.abs(key.ha...转载 2017-02-26 22:04:43 · 17801 阅读 · 0 评论 -
大数据体系结构视频
大数据的体系结构培训:链接:https://pan.baidu.com/s/1T7C1wZMoAT3SR2x1IS2YCQ提取码:7jsn原创 2019-09-07 18:24:04 · 216 阅读 · 0 评论 -
抉择
通俗易懂--决策树算法、随机森林算法讲解(算法+案例)12018.12.11 21:23:14字数 3175阅读 6311.决策树决策树模型demo随机森林模型demo1.1从LR到决策树相信大家都做过用LR来进行分类,总结一下LR模型的优缺点:优点 适合需要得到一个分类概率的场景。 实现效率较高。 很好处理线性特征。 缺点 当特征空...转载 2019-09-07 12:02:54 · 127 阅读 · 0 评论 -
Yarn
整调度流程为:整个的调度流程为: 1.应用程序通client类向ResourceManager提交程序,Application运行所需要的入口类,出口类,运行的命令,运行所需要的cpu资源和内存资源,jar包资源。 2.ResourceManager通过内部的调度器,去集群中寻找资源,找到资源后与NodeManager进行通信,去启动相应的Application...原创 2019-07-31 20:05:40 · 242 阅读 · 0 评论 -
Apache Kylin 分析
1.概述1.1 Kylin是什么 Apache Kylin(Extreme OLAP Engine for Big Data)是一个开源的分布式分析引擎,为Hadoop等大型分布式数据平台之上的超大规模数据集通过标准SQL查询及多维分析(OLAP)功能,提供亚秒级的交互式分析能力。11.2 Kylin的由来 Apache Kylin,中文名麒麟,是Hadoop动物园的重要成员...转载 2019-07-25 21:13:57 · 342 阅读 · 0 评论 -
大数据学习路线
一、背景介绍本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。二、大数据介绍大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。针对以上主要的4个特征我...转载 2019-07-25 20:43:57 · 213 阅读 · 0 评论 -
Strom 详解
首先回顾map reduce框架主节点jobtracker,从节点 taskTracker。用户提交任务给jobtracker,jobtracker分配给taskTracker,我们管这些任务叫job运行的作业分为两种 map 和 reduce。Storm是一个实时计算框架主节点 nimbus 从节点 supervisor用户提交作业给nimbus, nimbus把任务分...原创 2019-07-23 20:18:39 · 222 阅读 · 0 评论 -
Apache Mesos 学习
Apache Mesos是由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。mesos 优缺点:mesos优点:1.资源管理策略Dominant Resource Fairness(DRF), 这是Mesos的核心,也是我们把Mesos比作分...原创 2017-02-16 14:38:36 · 1107 阅读 · 0 评论 -
Impala 学习
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。2.Impala的架构分析https://san...原创 2017-02-17 20:32:07 · 407 阅读 · 0 评论 -
阿里巴巴日志处理系统
SLS是阿里云自主研发的针对日志数据的实时、大规模集中式管理服务平台,可满足各种类型的日志处理分析需求,减轻广大开发者的负担。日志是大规模集群管理系统中非常关键的部分,服务器上的各种日志数据(如访问日志、应用日志等)可以帮助我们回答各种问题,例如:然而要想从日志中获取这些信息,通常需要开发大量脚本和工具,从头到底搭建端对端系统,并且为了保证服务可靠性和稳定性,要做大量维护开发工作。阿里云自...原创 2017-02-19 17:36:35 · 1735 阅读 · 0 评论 -
十大经典数据挖掘算法
总体比较多:1.C4.5 算法 http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html原创 2017-02-19 17:51:52 · 600 阅读 · 0 评论 -
HDFS 模型
1. 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由于NFS中,文件是存储在单机上,因此无法提供可靠性保证,当很多客户端同时...原创 2019-07-31 20:44:28 · 483 阅读 · 0 评论 -
Flink 入门
1.flink 官网:https://flink.apache.org2.fink 特点:Flink灵活的窗口 Exactly once语义保证3.fink 架构4.fink安装https://www.jianshu.com/p/775bdd05d047...原创 2019-09-01 12:58:13 · 112 阅读 · 0 评论 -
大数据之采集和传输层
1.采集层:虫虫不再赘述2.logstat2.传输层:2.1kafka链接:https://pan.baidu.com/s/1YiRLiUwbyxHwv-H1MRdvww提取码:twn62.2 rocketMQ链接:https://pan.baidu.com/s/1jdX7lR0dhgA6s9Xo-QDSeA提取码:wsl42.3...原创 2019-09-06 22:48:36 · 523 阅读 · 0 评论 -
大数据之存储层
1.HDFS教程:链接:https://pan.baidu.com/s/1geQ58ccvD6sROTiEDAJwvg提取码:othb2.ceph 教程https://pan.baidu.com/s/1idP8k2O1qyqXzhiG-8BoIg3.kudu 教程https://pan.baidu.com/s/1R0EyVXpt1A4rkaIz9VlM9w4.Ti...原创 2019-09-05 22:33:39 · 718 阅读 · 0 评论 -
Tesorflow 博客
1.学习教程2.深入学习链接:https://pan.baidu.com/s/1x_aLv-P6jBnUKVMhG-gE0A提取码:crth3.递进书籍:1、TensorFlow实战_黄文坚(完整).pdf2、Tensorflow 实战Google深度学习框架.pdf3、TensorFlow Machine Learning Cookbook.pdf4、...原创 2019-09-04 22:14:01 · 122 阅读 · 0 评论 -
Flink 的安装学习
1.FLink 教程:https://blog.csdn.net/ffjl1985/article/details/81775019pdf下载;2.https://yq.aliyun.com/articles/81743?utm_campaign=wenzhang&utm_medium=article&utm_source=QQ-qun&2017516&a...原创 2019-09-04 13:33:24 · 93 阅读 · 0 评论 -
storm 教程
1.storm基础教程https://www.w3cschool.cn/apache_storm/2.storm高级教程:https://pan.baidu.com/s/1CaPcW7AKOJYA9krRZUGP9A原创 2019-09-04 13:14:53 · 176 阅读 · 0 评论