![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
hsiehchou
这个作者很懒,什么都没留下…
展开
-
Flink练习
Flink练习一、Flink开发IDEA环境搭建与测试1、IDEA开发环境先虚拟机联网,然后执行yum -y install nc nc是用来打开端口的工具 然后nc -l 9000 1.pom文件设置<properties> <maven.compiler.source>1.8</maven.compiler.source> ...原创 2019-06-01 18:48:11 · 527 阅读 · 0 评论 -
Spark 调优
Spark 调优问题:只要会用就可以,为什么还要精通内核源码与调优? Spark 性能优化概览: Spark的计算本质是,分布式计算 所以,Spark程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者内存CPU、网络带宽,是运维来维护的 聚焦点:内存如果内存能够容纳下所有的数据,那就不需要调优了 如果内存比较紧张,不足以放下所有数据(10亿量级—500G),需要对内...原创 2019-04-19 21:45:28 · 104 阅读 · 0 评论 -
Spark Streaming基础
Spark Streaming 流式计算框架,类似于Storm常用的实时计算引擎(流式计算) 1、Apache Storm:真正的流式计算2、Spark Streaming :严格上来说,不是真正的流式计算(实时计算) 把连续的流式数据,当成不连续的RDD 本质:是一个离散计算(不连续)3、Apache Flink:真正的流式计算。与Spark Streaming相反 把离散的数据...原创 2019-04-19 21:44:23 · 257 阅读 · 0 评论 -
内存数据库专题(MemCached 和Redis)
内存数据库专题为什么要把数据存入内存? 快常见的内存数据库: MemCached:看成Redis前身,严格来说,MemCached不能叫数据库,只能叫缓存 不支持持久化。如果内存停电,数据丢失Redis:内存数据库,支持持久化,支持HAOracle TimesTensession一致性MemCached + keepalive实现一、Memcached1、基本原理和体系架构...原创 2019-04-23 17:51:33 · 580 阅读 · 0 评论 -
Spark SQL
一、Spark SQL 基础1、什么是Spark SQL2、为什么学习Spark SQL3、核心概念:表(DataFrame DataSet)4、创建DataFrame5、操作DataFrame6、操作DataSet7、Spark SQL 中的视图二、使用数据源1、使用load函数、save函数2、Parquet文件3、json文件4、JDBC5、使用Hive...原创 2019-04-12 19:58:59 · 521 阅读 · 0 评论 -
Spark Core
Spark CoreSpark生态圈: Spark Core : RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib :协同过滤,ALS,逻辑回归等等 –> 机器学习 Spark Graphx : 图计算一、Spark Core1、什么是Spark?特点https://spark.apache.org/ Apache...原创 2019-04-08 14:00:03 · 333 阅读 · 0 评论 -
akka练习
akka练习Actor并发模型java中的并发开发 java的并发编程是基于 共享数据 和 加锁 的一种机制。锁的是共享数据 synchronizedScala中的并发开发 不共享数据。依赖于 消息传递 的一种并发编程模式如果 Actor A 和 Actor B要相互沟通 1、A要给B传递一个消息,B有一个收件箱,B轮询自己的收件箱 2、如果B看到A的消息,解析A的消息并执行相应...原创 2019-04-08 13:59:04 · 244 阅读 · 0 评论 -
Scala函数式编程
Scala编程一、Scala函数式编程多范式:面向对象,函数式编程(程序实现起来简单)举例:WordCount sc 是 SparkContext , 非常重要一行:var result = sc.textFile("hdfs://xxxx/xxx/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect...原创 2019-04-08 13:57:08 · 295 阅读 · 0 评论 -
Scala基础
Scala基础1、scala编程语言 2、Spark Core : Spark内核 ,最重要的一个部分 3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行 4、Spark Streaming :类似于 storm,用于流式计算、实时计算。本质:一个离线计算一、Scala基础1、scala简介1)scala是一个多范式的编程语...原创 2019-04-02 15:12:39 · 376 阅读 · 0 评论 -
Flink基础
Flink基础一、Flink概述官网:http://flink.apache.org/ mapreduce->maxcumpute hbase->部门 quickBI DataV Hive->高德地图 storm->Jstorm … 2019年1月 阿里正式开源flink->blink Apache Flink是一个框架和分布式处理引擎,用于对无...原创 2019-06-01 18:47:31 · 886 阅读 · 0 评论 -
Storm练习
Storm练习一、需求需求:统计网站访问量(实时统计)技术选型:特点(数据量大、做计算、实时)实时计算框架:storm 1)spout 数据源,接入数据 本地文件2)bolt 业务逻辑处理 切分数据 查到网址3)bolt 累加次数求和二、代码编写PvCountSpout.javapackage com.hsiehch...原创 2019-06-01 18:46:30 · 316 阅读 · 0 评论 -
Storm集群和集成
Storm集群和集成一、Storm集群任务提交流程二、Storm内部通信机制三、集成Storm1、与JDBC集成将Storm Bolt处理的结果插入MySQL数据库中需要依赖的jar包 $STORM_HOME\external\sql\storm-sql-core*.jar $STORM_HOME\external\storm-jdbc\storm-jdbc-...原创 2019-06-01 18:45:40 · 203 阅读 · 0 评论 -
Storm基础
Storm基础流式计算专题 批量计算、实时计算、离线计算、流式计算共同点: 数据源 –> 采集数据 –> task worker –> task worker –> sink 输出批量计算和流式计算 区别: 处理数据粒度不一样批量计算每次处理一定大小的数据块。流式计算,每次处理一条记录流式计算可以提供类似批量计算的功能,为什么我们还要...原创 2019-06-01 18:44:52 · 300 阅读 · 0 评论 -
Hadoop的HA高可用(可行)
Hadoop的HA高可用(可行)Hadoop的HA高可用(可行)一、集群的规划Zookeeper集群 192.168.116.121 192.168.116.122 192.168.116.123 hsiehchou121 hsiehchou122 hsiehchou123Hadoop集群 192.168.116.121 192.168.116.122 192.168...原创 2019-06-01 18:43:44 · 353 阅读 · 0 评论 -
Kafka
Kafka离线部分 Hadoop->离线计算(hdfs / mapreduce) yarn zookeeper->分布式协调(动物管理员) hive->数据仓库(离线计算 / sql)easy coding flume->数据采集 sqoop->数据迁移mysql->hdfs/hive hdfs/hive->mysql Azkaban->...原创 2019-06-01 18:42:20 · 271 阅读 · 0 评论 -
Hadoop HA和Hbase HA
Hadoop Hbase HA保证所有的服务器时间都相同一、Hadoop HAHDFS HA/root/hd/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件1、core-site.xml<configuration> <property> <name>fs.defaultFS</name...原创 2019-04-25 13:14:59 · 273 阅读 · 0 评论 -
Spark MLlib和Spsrk GraphX
Spark MLlib一、MLlib概述1、机器学习算法2、通信二、什么是机器学习1、机器学习的定义2、基于大数据的机器学习3、MLlibSpark Graphx一、Spark Graphx 是什么?二、Spark GraphX 有哪些抽象?1、顶点2、边3、三元组4、图Spark MLlibMLlib 是 Spark 可以扩展...原创 2019-04-19 23:03:44 · 554 阅读 · 0 评论 -
Elasticsearch(二)
一、Java API操作Elasticsearch的Java客户端非常强大;它可以建立一个嵌入式实例并在必要时运行管理任务运行一个Java应用程序和Elasticsearch时,有两种操作模式可供使用。该应用程序可在Elasticsearch集群中扮演更加主动或更加被动的角色。在更加主动的情况下(称为Node Client),应用程序实例将从集群接收请求,确定哪个节点应处理该请求,就像正常节点...原创 2019-03-24 12:58:29 · 360 阅读 · 0 评论 -
ElasticSearch(一)
ElasticSearch1. 全文检索技术简介什么是搜索?搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息如何实现搜索?OA系统,比如:通过名字搜索员工等等 mysql : select * from employee e where e.name like “%李雷%”; select * from empl...原创 2019-03-23 17:30:05 · 354 阅读 · 0 评论 -
Azkaban
1、Azkaban官网:https://azkaban.github.io/ Azkaban是一款开源工作流管理器Azkaban是在LinkedIn上创建的批处理工作流作业调度程序,用于运行Hadoop作业Azkaban通过作业依赖性解决订单,并提供易于使用的Web用户界面来维护和跟踪您的工作流程工作流作业: flume-&gt;hdfs-&gt;mr-&gt;hive建表-&gt;导...原创 2019-03-13 00:28:17 · 124 阅读 · 0 评论 -
大数据基础之hdfs2
1、HDFS下载文件原理1、请求 2、创建client DFS –>DFSClient 3、建立RPC通信 4、得到代理对象proxy,通过代理对象请求得到文件元信息 5、查找元信息 6、返回元信息 7、创建输入流 8、下载数据块 FSDataInputStream 9、整合下载文件注意:HDFS维护失败列表2、安全模式 safe mode检查副本率是否满足配置要...原创 2019-02-19 21:28:28 · 120 阅读 · 0 评论 -
Hive基础
Hive&amp;amp;lt;p&amp;amp;gt;官网:&amp;amp;lt;a href=&amp;quot;http://hive.apache.org/&amp;quot; target=&amp;quot;_blank&amp;quot;&amp;amp;gt;http://hive.apache.org/&amp;amp;lt;/a&a原创 2019-02-28 22:17:23 · 93 阅读 · 0 评论 -
zookeeper练习
命令行操作配置环境变量:vi /etc/profileexport ZOOKEEPER_HOME=/root/hd/zookeeper-3.4.10export PATH=$ZOOKEEPER_HOME/bin:$PATH声明环境变量:source /etc/profile 发送到其他机器 scp /etc/profile hsiehchou122:/etc/ scp /etc/p...原创 2019-02-24 19:53:40 · 369 阅读 · 0 评论 -
大数据基础之hdfs1
1、免密码登录的原理和配置ssh不对称加密算法(加密和解密是两个文件)(对称加密: 加密和解密文件是同一个) (1)公钥–锁:给出去 给其他机器 (2)私钥–钥匙:自己留着,解密 step1:ssh-keygen -t rsa(3次回车) step2:ssh-copy-id -i ~/.ssh/id_rsa.pub root@hsiehchou121(自己也要拷贝给...原创 2019-02-19 11:44:52 · 199 阅读 · 0 评论 -
大数据基础2
1、什么是大数据?2002 大数据提出 美国引入。—麦肯锡报告。 维克托·迈尔-舍恩伯格—大数据之父 4V特征: 即 Volume(数据量大):PB级 Variety(数据多样性):文本、图像、视频、音频等 Velocity(输入和处理速度快):流式数据 Value(价值密度低): 积累很多的...原创 2019-02-19 11:43:17 · 149 阅读 · 0 评论 -
大数据基础1
1、Linux下命令行中的复制和粘贴安装gpm:yum install -y gpm*开启gpm服务:systemctl start gpm2、打开网卡vi /etc/sysconfig/network-scripts/ifcfg-ens333、修改为静态IPBOOTPROTO=”dhcp” 这个是动态IP BOOTPROTO=”static”这个是静态IP BOOTPROTO...原创 2019-02-19 11:38:45 · 176 阅读 · 0 评论 -
大数据常用基本算法
1、冒泡排序冒泡排序(Bubble Sort),是一种计算机科学领域的较简单的排序算法 它重复地走访过要排序的元素列,依次比较两个相邻的元素,如果他们的顺序(如从大 到小、首字母从A到Z)错误就把他们交换过来。走访元素的工作是重复地进行直到没有 相邻元素需要交换,也就是说该元素已经排序完成 这个算法的名字由来是因为越大的元素会经由交换慢慢“浮”到数列的顶端(升序或降序 排列),就如同碳...原创 2019-02-23 22:05:42 · 4210 阅读 · 0 评论 -
大数据基础之hdfs3
1、hdfs的副本的配置修改hdfs-site.xml文件&lt;!-- 注释配置数据块的冗余度,默认是3 --&gt;&lt;property&gt; &lt;name&gt;dfs.replication&lt;/name&gt; &lt;value&gt;1&lt;/value&gt;&a原创 2019-02-19 21:31:33 · 147 阅读 · 0 评论 -
HBase操作
1、hbase API操作1)首先将core-site.xml、hbase-site.xml、hdfs-site.xml引入maven工程的resources下面2)配置pom.xml文件 增加hbase依赖<dependencies> <dependency> <groupId>org.apache.hbase</groupI...原创 2019-03-17 18:53:35 · 228 阅读 · 0 评论 -
HBase基础
1、hbasegoogle: gfs –> hdfs mapreduce –> mapreduce bigtable –> hbaseApache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。A...原创 2019-03-16 21:08:08 · 355 阅读 · 0 评论 -
Sqoop
1、sqoopflume数据采集 采集日志数据 sqoop数据迁移 hdfs-&amp;amp;gt;mysql azkaban任务调度 flume-&amp;amp;gt;hdfs-&amp;amp;gt;shell-&amp;amp;gt;hive-&amp;amp;gt;sql-&amp;amp;gt;BIsqoop数据迁移=mapreduce 处理离线数据 整个过程就是数据导入处理导出过程原创 2019-03-10 13:20:50 · 116 阅读 · 0 评论 -
Flume
1、Flume概述:Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日 志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障 转移和恢复机制,具有强大的容错性。它使用简单的可扩展数据模型,允许在线分析应 用程序。 1)数据采集(爬虫\日志数据\flume) 2)数据存储(hdfs/hive/hbase(nosql)) 3)数据计算(ma...原创 2019-03-09 18:45:02 · 99 阅读 · 0 评论 -
Hive的SQL操作
1、分区表1)创建分区表hive&amp;gt; create table dept_partitions() &amp;gt; partition by() &amp;gt; row format &amp;gt; delimited fields &amp;gt; terminated by '';例:hive&amp;gt; create table原创 2019-03-05 19:27:47 · 461 阅读 · 0 评论 -
数据压缩、数据倾斜join操作
1、数据压缩发生阶段 端 操作 压缩 数据源 》数据传输 数据压缩 mapper map端输出压缩 》数据传输 数据压缩 reducer reduce端输出压缩 》数据传输 数据压缩 结果数据 设置map端输出压缩: 1)开启压缩 conf.setBoolean //开启map端输出压缩 conf.setBoolean("map...原创 2019-02-20 17:30:10 · 213 阅读 · 0 评论 -
大数据之排序、combiner、压缩
1、自定义分区需求:统计结果进行分区,根据手机号前三位来进行分区 总结: 1)自定义类继承partitioner<key,value> 2)重写方法getPartition() 3)业务逻辑 4)在driver类中加入 setPartitionerClass 5)注意:需要指定setNumReduceTasks(个数=分区数+1) 新增PhonenumPartitio...原创 2019-02-19 21:33:30 · 221 阅读 · 0 评论 -
大数据之mapreduce小实战
手写wordcount的程序1、pom.xml <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs-client --> <dependency> <groupId>org.ap...原创 2019-02-19 21:32:43 · 187 阅读 · 0 评论 -
zookeeper介绍
Zookeeper官网:http://zookeeper.apache.org/ 介绍:Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的...原创 2019-02-23 22:05:04 · 148 阅读 · 0 评论