大数据
文章平均质量分 92
NYAIoT
这个博客主要分享AIoT技术上的一些思考,欢迎大家批评指证。
展开
-
分布式日志收集框架Flume---实现网络端口监听日志收集
flume Overview:Apache Flume是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集,聚合和移动大量日志数据到集中式数据存储。Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据源。Apache Flume是Apache S...原创 2019-11-28 19:53:35 · 373 阅读 · 0 评论 -
分布式发布订阅消息系统Kafka---集群搭建
OverviewKafka是distributed streaming platform。streaming platform有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。具有容错能力,能持久存储记录流。处理发生的记录流。Kafka通常用于两大类应用:构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建转换或响应数据流的实时流应用程序...原创 2019-11-28 19:52:11 · 381 阅读 · 0 评论 -
Hadoop集群的搭建和使用
OverviewHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可...原创 2019-11-28 19:49:58 · 266 阅读 · 0 评论 -
YARN资源调度框架搭建和应用
一、产生的背景1、MapReduce1.0存在的问题 ,架构如图所示:1)单点故障:JobTracker只有一个,JobTracker挂了整个集群就没办法使用了;2)一个人干的活太多:JobTracker负责接收来自各个JobTracker节点的RPC请求,压力会很大,限制了集群的扩展;随着节点规模增大之后,JobTracker就成为一个瓶颈;2、资源利用率和运维成本1)在没有YARN...原创 2019-11-28 19:47:28 · 262 阅读 · 0 评论 -
Hive如何搭建和使用
OverviewApache Hive数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已存储的数据中。 提供了命令行工具和JDBC驱动程序以将用户连接到Hive。一、Hive环境搭建1.安装一个mysqlUbuntu 16.04下安装MySQL的过程:首先执行下面三条命令:sudo apt-get install mysql-server...原创 2019-11-28 19:44:10 · 320 阅读 · 0 评论 -
Spark的前世今生
Spark****产生背景➢ 计算处理框架种类多,选型复杂批处理:MapReduce、Hive、Pig流式计算:Storm交互式计算:Impala、Presto机器学习算法:Mahout➢ 希望能够简化技术选型,在一个统一的框架下,能够完成批处理、流式计算、交互式计算、机器学习算法等Spark****简介➢ 由加州大学伯克利分校的AMP实验室开源➢ 大规模分布式通用计算引擎➢ ...原创 2019-11-28 19:41:51 · 240 阅读 · 0 评论 -
数据仓库—Hbase
Overview HBase是Hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机、实时读/写访问时,请使用HBase。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable:结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供...原创 2019-11-28 19:39:18 · 845 阅读 · 0 评论 -
在win10上搭建pyspark,
最近在研究Spark,准确的说是pyspark,为了搭个测试环境,之前一直在云上开Linux机器来搭Hadoop,但是Spark可以Local执行,我就打算在本地搭个环境。遇到了一些问题,记录一下,也给其他朋友一个思路。 pyspark在本地搭建需要 Java JDK 1.8.0 Anacoda3 spark-2.2.3-bin-hadoop2.7 ...原创 2019-03-08 18:16:00 · 176 阅读 · 0 评论 -
大数据与Elasticsearch结合kibana可视化展示
大数据与Elasticsearch结合kibana可视化展示安装hadoop2.7.3版本(官方推荐)(PS:hadoop3.+以上不支持,试过),hadoop可以搭全分布式和伪分布式,我是用伪分布式。一、Hadoop伪分布式搭建:解压Hadoop2.7.3:1、固定ip将集群中每一台主机ip设为静态,并且可以相互通信先使用ifconfig查看当前网卡名称2 设置每一台机器自己的主机...原创 2019-11-26 18:01:35 · 1050 阅读 · 0 评论 -
Azure Data Factory操作使用介绍
Azure Data Factory操作使用介绍在大数据环境中,原始、散乱的数据通常存储在关系、非关系和其他存储系统中。但是,就其本身而言,原始数据没有适当的上下文或含义来为分析师、数据科学家或业务决策人提供有意义的见解。大数据需要可以启用协调和操作过程以将这些巨大的原始数据存储优化为可操作的业务见解的服务。Azure Data Factory是为这些复杂的混合提取-转换-加载 (ET...原创 2019-11-24 13:11:10 · 6710 阅读 · 0 评论