大数据
文章平均质量分 73
大数据小阿姨
意识 判断选择力 相信 行动
认知过程 发现 分类 织网
展开
-
hadoop_mapreduce06-ReduceJoin案例-220526
hadoop_mapreduce06-ReduceJoin案例原创 2022-06-07 22:02:20 · 162 阅读 · 0 评论 -
hadoop_mapreduce05-自定义OutputFormat实现类实操
自定义OutputFormat类可以输出到本地、mysql、hdfs等翻译 2022-02-27 15:20:13 · 111 阅读 · 0 评论 -
hadoop_mapreduce03-InputFormat数据输入-包括切片与MapTask并行度Combine小文件等
hadoop_mapreduce03-InputFormat数据输入-包括切片与MapTask并行度Combine小文件等注:仅做笔记,摘记,详细见源码和word。1. 切片与MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块。 本地32M,hadoop1.x 64M,hadoop2.x 128M数据切片:逻辑上对数据进行切片,建议和块大小设置一样,否则会有产生很多IO。2. Job提交流程源码和切片源码解读waitForCompletion()submit();翻译 2021-11-28 22:53:52 · 160 阅读 · 0 评论 -
hadoop_mapreduce02-序列化与反序列化-计算上下行流量
hadoop_mapreduce02-序列化与反序列化-计算上下行流量注:仅做笔记。(一)需求统计每一个手机号耗费的总上行流量、下行流量、总流量。phone_data.txt1 13736230513 192.196.100.1 www.at.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3 132 1512 2004 13966251146 192.168.100翻译 2021-11-28 15:30:38 · 148 阅读 · 0 评论 -
hadoop_mapreduce01_wordcount
hadoop_mapreduce01_wordcount(一)需求统计单词个数。1)输入数据:/Users/art/Documents/demo_datas/wordcount_inputs/words.txthive emr hivehive d2 emr odpshelloword hive2)输出数据:/Users/art/Documents/demo_datas/wordcount_inputs(要求运行前文件夹不存在)期望输出结果:d2 1emr 2helloword原创 2021-11-15 02:55:53 · 1015 阅读 · 0 评论 -
hadoop_hdfs07-hdfsHA集群配置&ZK集群配置&yarnHA配置
hadoop_hdfs07-hdfsHA集群配置&ZK集群配置&yarnHA配置注:笔记.(一) 集群规划Hadoop102Hadoop03Hadoop04ZKZKZKJournaleNodeJournaleNodeJournaleNodeNameNodeNameNodeDataNodeDataNodeDataNodeResourceManagerResourceManagerNodeManagerNodeMan翻译 2021-08-08 18:28:54 · 335 阅读 · 0 评论 -
hadoop_hdfs03-java-IO流操作
hadoop_hdfs03-java-IO流操作注:仅作笔记.api操作是hdfs系统封装好的,如果想自己实现api操作,可以使用IO流的方式实现数据的上传和下载.hdfs文件上传hdfs文件下载指定下载起始位置package com.onhadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apach原创 2021-05-31 00:40:55 · 141 阅读 · 0 评论 -
hadoop_hdfs02-java-api
hadoop_hdfs02-java-api注: 仅作笔记.pom<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </depe原创 2021-05-30 18:12:15 · 76 阅读 · 0 评论 -
hadoop_集群搭建02-安装jdk安装hadoop
hadoop_集群搭建02-安装jdk安装hadoop前提:hadoop_集群搭建01_mac_parallelsdesktop_centos68克隆虚拟机修改克隆虚拟机的静态ip修改主机名关闭防火墙创建user02用户配置user02用户具有root权限本文:单台机器安装jdk和安装hadoop在/opt文件夹下新建文件夹1)在/opt文件夹下创建module、software文件夹[user02@hadoop102 opt]$ sudo mkdir module[user0原创 2021-02-18 01:01:04 · 182 阅读 · 0 评论 -
hadoop集群搭建01_mac_parallelsdesktop_centos68
hadoop集群搭建01_mac_parallelsdesktop_centos68centos linux100克隆原版搭建前面不管了一 修改ip地址①vim /etc/sysconfig/network-scripts/ifcfg-eth0DECVICE=eth0HWADDR=00:xx:xx:xx:xx:xxTYPE=EthernetUUID=4bxxxxxxxx-4xx3-xxx4-acxx-xxxxxxxxxxxb# 系统启动的时候网络接口是否有效ONBOOT=yesNM_C原创 2021-01-24 15:53:24 · 414 阅读 · 0 评论 -
kafka_架构模型_200809
Kafka架构模型Kafka消费速度快:页缓存:找个磁盘当内存;kafka采用顺序读写,比固态磁盘快;如果消费速度太慢,更改topic的分区个数,就会有很多线程来消费。flume与kafka的整合flume监控文件夹,有新文件就搜集起来到kafka队列中source:spoolDir Sourcechannel:memory channelsink:数据到kafka里面副本默认2...原创 2020-08-09 18:20:04 · 133 阅读 · 0 评论 -
ODPS_数据倾斜查看key分布的通用方案_200628
产生数据倾斜的通用方案知道数据倾斜了,但无法获知数据倾斜的key信息,可以使用以下方法查看数据倾斜。假如select * from tba join tbb on tba.id=tbb.id; 产生了数据倾斜可以执行如下语句来查看key的分布:select left.key,left.cnt*right.cnt from(select key,count(*) as cnt from tba group by key) as left join(select key,count(*) as c原创 2020-06-28 23:31:29 · 404 阅读 · 0 评论 -
BI_ODPS-D2-离线数仓-8-QuickBI展示
BI_ODPS-D2-离线数仓-8-QuickBI展示(上周学会使用句号)对RDS的gmall_adb数据库中的表做结果展示。(提供DataV和QuickBI两种方式这里选择QuickBI)三个点1.数据集:每一个图标对应一个数据集,一个数据集也对应数据库的一张表。2.维度:要展示的信息。如类型、状态、性别、地区等。量度:要展示的信息的值。如可以汇总求和的信息,像交易额、数量、人次等...原创 2020-03-22 17:00:40 · 412 阅读 · 0 评论 -
SQL_ODPS-D2-离线数仓-7-临时查询
SQL_ODPS-D2-离线数仓-7-临时查询包括ods dwd dws ads数仓的建表语句 以及 手动导入数据语句test--odps sql --********************************************************************----author:i--create time:0000-00-00 00:00:00--**...原创 2020-03-18 00:05:45 · 492 阅读 · 0 评论 -
img_ODPS-D2-离线数仓-6
img_ODPS-D2-离线数仓-6纪念一下,全部跑通的一天。原创 2020-03-17 23:49:14 · 231 阅读 · 0 评论 -
SQL_ODPS-D2-离线数仓-5-开窗函数在sql中的实际应用
SQL_ODPS-D2-离线数仓-5-开窗函数在sql中的实际应用.md--手动将dwd层数据导入到dws层INSERT OVERWRITE TABLE dws_uv_detail_d PARTITION (ds,hh,mm)SELECT mid, user_id, version_code, version_name, lang, sourc...原创 2020-03-08 23:33:28 · 372 阅读 · 1 评论 -
Java_ODPS-D2-离线数仓-4-自定义函数UDTF,一进多出,处理复杂事件json串
Java_ODPS-D2-离线数仓-4-自定义函数UDTF,一进多出,处理复杂事件json串原始数据和结果都自行想象吧 或者 翻翻笔记p89 p92FuntionStudio新建一个项目gmall_udtf,运行环境选udfjava新建一个FlatEventUDTFpom.xml中加入fastjson依赖 <dependency> <gr...原创 2020-03-08 03:07:07 · 709 阅读 · 0 评论 -
Linux_ODPS-D2-离线数仓-3-启动flume,运行jar包
Linux_ODPS-D2-3-启动flume,运行jar包1. 启动flume程序[root@hadoop102 ~]# su ataliyun[ataliyun@hadoop102 ~]# /opt/module/flume/bin/flume-ng agent -n a1 -c /opt/module/flume/conf/ -f /opt/module/flume/conf/file...原创 2020-03-08 01:44:23 · 336 阅读 · 0 评论 -
Shell_ODPS-D2-2-离线数仓集群分发、整体操作脚本xsync
Shell_ODPS-D2-2.0-集群分发、整体操作脚本xsync191129版(一)集群分发脚本xsync1.hadoop102 上编写脚本[root@hadoop102 ~]# cd /usr/local/bin[root@hadoop102 bin]# vim xsync脚本内容#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#...原创 2020-03-03 00:34:31 · 908 阅读 · 0 评论 -
SQL_ODPS-MaxCompute-odpscmd-tunnel-数据上传下载
SQL_ODPS-MaxCompute-odpscmd-tunnel-数据上传下载1. rd行分割 -fd列分割 -charset编码--建临时表odps@ work_test_1>create table if not exists t_rd_fd(id int,name string);--源数据data_t_rd_fd.txt--666$$张三||555$$李四||--...原创 2020-02-21 00:09:05 · 1458 阅读 · 0 评论 -
SQL_ODPS-MaxCompute-odpscmd-1.0
dSQL_ODPS-MaxCompute-odpscmd-1.0注:这篇每块代码按顺序操作 每块可按顺序看目的:熟悉一下日志(一)简单的语句操作普通表--复制表结构odps@ work_test_1>create table t_denile_2 like t_deniel;ID = 000000001447167gm4yr392OK-- 修改表名odps@ work...原创 2020-02-20 12:35:08 · 656 阅读 · 0 评论 -
Scala_SparkSql-UDAF弱类型用户自定义聚合函数实例
scala_sparksql-UDAF弱类型用户自定义聚合函数实例import org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{Da...原创 2019-11-07 12:26:07 · 331 阅读 · 0 评论 -
Scala_spark-电商平台离线分析项目-需求一Session访问步长时长占比统计
Scala_spark-电商平台离线分析项目-需求一Session访问步长时长占比统计共十个需求需求一代码实现sessionStat.scalaimport java.util.{Date, UUID}import commons.conf.ConfigurationManagerimport commons.constant.Constantsimport commons.mo...原创 2019-10-31 23:52:54 · 312 阅读 · 0 评论 -
Spark_Scala-累积-RDD-DataSet-DataFrame-相互转换
Spark_Scala-累积-RDD-DataSet-DataFrame-相互转换代码举例package com.atguigu.bigdata.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset,...原创 2019-10-24 01:00:14 · 339 阅读 · 0 评论 -
Scala_累积-Scala样例类-1
Scala_累积-Scala样例类-1case类在模式匹配和actor中经常使用到,当一个类被定义成为case类后,Scala会自动帮你创建一个伴生对象并帮你实现了一系列方法且带来了不少好处。有三种 日后碰到再补充1.1.实现了apply方法,意味着你不需要使用new关键字就能创建该类对象case class User(id:Int,name:String,age:Int)...原创 2019-10-23 20:53:57 · 316 阅读 · 0 评论 -
spark_note02_Spark框架&spark_IDEA
Spark框架&spark_IDEA生态及版本再说什么是sparkApache Spark是一个用于大规模数据处理的统一分析引擎spark是基于内存的计算框架Spark框架的四大特点速度快与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快上10倍原因:1.mr,每个job输出结果都要存到磁盘,后续job依赖于前面job...原创 2019-09-20 01:19:44 · 289 阅读 · 0 评论 -
spark_note03_spark计算模型RDD_1
spark计算模型RDD_1.0(一)什么是RDD弹性分布式数据集基于内存弹性的自动容错的内存迭代(er)RDD的五大属性1.一个分区列表每个RDD都有很多个分区,分区里面才是真正的数据,spark的任务是以分区为单位的,一个分区后期就对应一个spark的task,也就是一个分区就对应一个线程2.作用在每一个rdd分区中的函数举例:val rdd2=rdd1.map(...原创 2019-09-22 00:56:37 · 265 阅读 · 0 评论 -
spark_note04_ip地址查询热力图源数据
ip地址查询1. 需求分析 在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。 因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。2. 技术调研 因为我们的需求是完成一张报表信息,所以对程...原创 2019-09-22 16:36:33 · 1008 阅读 · 0 评论 -
spark_note05_RDD依赖关系&spark架构_2
(一)spark RDD的依赖关系1.窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用比喻:独生子女结论:窄依赖不会产生shuffle比如:flatMap/map/filter…2.宽依赖窄依赖指的是父RDD的Partition被子RDD的多个Partition使用比喻:超生结论:宽依赖会产生shuffle比如:reduce...原创 2019-09-23 17:34:20 · 252 阅读 · 0 评论 -
spark_note06_sparkSQL_1
(一)sparkSQLsparkSQL是什么sparkSQL是apache spark的一个处理结构化数据的模块。它提供了一个编程抽象叫做DataFrame 并且作为分布式sql查询引擎的作用sparkSQL四大特性1.易整合可以将sparksql与spark应用程序进行混合使用并且可以使用java、scala、python、R等不同语言进行代码开发2.统一的数据源访问...原创 2019-09-24 17:44:53 · 198 阅读 · 0 评论 -
spark_note07_sparkSQL_2
sparkSQL_DataFrame(一)通过IDEA开发sparksql程序实现将rdd转换成dataframe1、引入pom依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</ar...原创 2019-09-26 15:57:13 · 265 阅读 · 1 评论 -
spark_note08_spark on yarn
spark on yarnyarn–cluster模式driver程序在yarn中运行,应用的运行结果不能在客户端显示,最好保存在外部存储介质(如hdfs、redis、mysql)spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn --deploy-mode cluster \--drive...原创 2019-09-26 15:58:22 · 122 阅读 · 0 评论 -
spark_note09_SparkStreaming概述与原理
SparkStreaming概述与原理(一)什么是sparkstreamingsparkstraming是一个易构建、可扩展、具有容错机制的流式应用程序。它就是一个实时处理的程序,数据不断的来,然后它就进行实时不断的处理。(二)sparkstreaming特性1、易用性可以像开发 离线批处理 一样去编写 实时处理的代码程序多种语言开发javascalap...原创 2019-09-27 19:16:05 · 171 阅读 · 0 评论 -
spark_note10_SparkStreaming_DStream
(五)DStream操作实战1、添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <versi...原创 2019-10-06 20:08:40 · 214 阅读 · 1 评论 -
spark_note01_spark-shell
spark入门&spark-shell【启动spark集群】集群状态[root@node01 sparkdata]# jps1954 QuorumPeerMain6388 Jps2981 NameNode4424 SparkSubmit3273 SecondaryNameNode3865 Master3116 DataNode[root@node02 spark-2...原创 2019-09-19 21:29:23 · 207 阅读 · 0 评论