大数据--学习
文章平均质量分 85
由浅至深,一步一步踏实学习。
唐樽
24年状态:现在是东莞从事青少儿编程教育行业,用心对待孩子,孩子参加比赛有所成绩,有所成长。才疏学浅要不断学习进步。❛‿˂̵✧
展开
-
Kafka:IDEA Receiver方式消费kafka数据
用IDEA对kafka进行数据消费原创 2021-12-11 01:01:40 · 1469 阅读 · 4 评论 -
生态圈:大数据各组件基础搭建、深度学习。
里面是大数据组件的文章链接,方面各位需求点击浏览。原创 2021-12-07 17:24:39 · 2462 阅读 · 7 评论 -
Spark:Streaming 实践 Dstream 转换算子、窗口、输出文件
启动集群、IDEA安装依赖;启动服务端监听 Socket 服务,实现 transform() 、UpdateStateByKeyTest 、Dstream 窗口、输出操作。原创 2021-12-07 12:04:17 · 3169 阅读 · 0 评论 -
Spark:Streaming 实时计算框架理论
什么是实时计算、常用的实时计算框架;Spark Streaming 介绍、 工作原理DStream简介、编程模型、转换操作; DStream API 转换操作;Spark Streaming工作机制、程序的基本步骤、创建 StreamingContext对象原创 2021-05-24 15:57:28 · 1270 阅读 · 0 评论 -
Flume:kafka+flume 对接数据
启动集群、kafka创建topic、编辑conf、清空日志文件、并执行python原创 2021-12-02 00:48:08 · 2021 阅读 · 0 评论 -
Flume:搭建配置以及 source读取在netcat、http,sink 落实在本地、HDFS
Flume 理论、简介、特点、结构;创建并解压配置文件Flume、配置 flume-env.sh文件、Flume环境变量;配置conf、分发文件;Flume的conf 多种部署。显示结果是过滤数据、通过netcat作为source, sink写到hdfs、通过HTTP作为source, sink写到logger、多节点进行串联。原创 2021-11-29 09:10:27 · 2768 阅读 · 0 评论 -
Kafka:分布式部署,实践、API连接操作
创建、 解压文件、 配置环境变量(三个节点)、分发文件,且修改server.properties(两个从节点)、 启动 kafka(三个节点)。创建 kafka的 主题、master 创建生产者生产消息、slave1 创建消费者消费信息。原创 2021-05-06 17:06:38 · 483 阅读 · 0 评论 -
Kafka:基础理论知识
Kafka的基础知识--点对点消息传递模式、 发布订阅消息传递模式;Kafka核心组件介绍、Kafka 工作流程分析;生产者生产消息、消费者消费消息过程。原创 2021-05-07 00:49:15 · 576 阅读 · 0 评论 -
大数据:数据的日志采集与用途
系统架构流程图、离线处理、实时在线;职业定位;数据采集用途、日志; 数据模型、产生、划分、质量检测、日志传输原创 2021-11-25 17:08:32 · 5930 阅读 · 1 评论 -
Spark:运行架构与原理、作业运行模型、RDD、调优 理论介绍
Spark 基础、概述、特点、 应用场景;Spark 与 Hadoop 对比、Spark运行架构与原理、Spark和的MR作业运行模型,线程优缺点、区别;Spark 核心:RDD介绍、窄依赖和宽依赖;内存模型、资源参数调优、 开发调优。原创 2021-11-22 21:17:20 · 2022 阅读 · 0 评论 -
Spark:SQL操作 cache、filter、selectExpr、agg、join、udf
统计订单中商品的数量、统计商品被再次购买(reordered)的数量、统计被重复购买的比率。原创 2021-11-18 22:45:34 · 3061 阅读 · 1 评论 -
Spark:spark-shell 处理需求
每个用户平均购买订单的间隔周期、每个用户的总订单数量(分组)、每个用户购买的product商品去重后的集合数据、每个用户总商品数量以及去重后的商品数量(distinct count)、每个用户购买的平均每个订单的商品数量(hive已经实现过了)原创 2021-11-21 21:32:59 · 1303 阅读 · 0 评论 -
Spark:Centos7 安装 Anaconda
centos 懒人安装 anaconda原创 2021-11-19 21:14:43 · 1138 阅读 · 0 评论 -
Scala:实现 wordCount 需懂得的基础知识,真不简单
读取数据、切分数据--> map(x=>(过滤,1))、分组,统计次数、转换类型、排序、分片,输出结果。原创 2021-11-18 10:06:35 · 643 阅读 · 0 评论 -
Hive:数据进行替换切分后的结果保存为新表,新表进行分词
了解数据、处理数据、替换函数:regexp_replace、用split 进行切分数据、jieba 分词原创 2021-11-20 22:25:50 · 2866 阅读 · 1 评论 -
Hive:用SQL对数据进行操作,导入数据、清洗脏数据、统计数据订单、优化结果输出等等
准备数据、了解数据、将数据导入hive;如何清洗第一行的脏数据?每个用户有多少个订单? (分组);每个用户一个订单平均是多少商品?一个订单有多少个商品? 一个用户有多少商品?进行用户对应的商品数量 sum求和; 一个用户平均一个订单有多少个商品? 每个用户在一周中的购买订单的分布? 一个用户平均每个购买天中,购买的商品数量?每个用户最喜爱购买的三个商品product是什么?原创 2021-11-11 11:24:55 · 11996 阅读 · 3 评论 -
Hive:分桶的简介、原理、应用、创建
Hive 分桶简介、原理、应用场景;数据抽样;创建分桶。原创 2021-11-11 23:50:03 · 3493 阅读 · 0 评论 -
Hive:多种方式建表,需求操作
认识数据:u.data;创建udata表,加载数据;需求:得到某一个用户具体的评论时间。需求: 用户购买的商品数量大于100的有哪些用户?原创 2021-11-11 14:58:48 · 1190 阅读 · 0 评论 -
Hive:分区原因、创建分区、静态分区 、动态分区
为什么要分区?、如何分区以及细节、创建分区、静态分区动态分区原创 2021-11-11 20:37:28 · 3907 阅读 · 0 评论 -
Hive:优化Reduce,查询过程;判断数据倾斜,MAPJOIN
数据存储格式、Reduce的优化、、MAPJION、数据倾斜原因、特点、定位原创 2021-11-12 21:03:45 · 2161 阅读 · 0 评论 -
Hive:数据管理、内外表、安装模式操作
Hive 的起源、数据管理、内外表、安装模式原创 2021-11-05 22:18:18 · 837 阅读 · 0 评论 -
关联 Hive 与 Hbase的数据一致
导入依赖 (master)、修改 hive-site.xml (master)、 启动相关服务;创建Hive表、 创建中间表、插入数据、测试是否数据一致原创 2021-04-23 15:17:41 · 610 阅读 · 0 评论 -
Linux:reduce实现 合并列表数据
这个得自己进去看看才知道。原创 2021-11-02 12:54:00 · 641 阅读 · 0 评论 -
MapReduce 计算框架 —— 执行流程详解
Map、Reduce 框架解释,框架的执行细节、运行模型;企业集群规划;Streaming 简介、优点、快速入门。原创 2021-11-02 00:00:26 · 1721 阅读 · 0 评论 -
在Linux环境实现wordcount:mapper,reducer的代码创建,脚本实现map,reduce
数据准备、map创建的初始、在map.py基础下创建red.py、map.py 重修版、用脚本run.sh 一步到位 执行map.py与red.py。原创 2021-10-22 23:07:13 · 829 阅读 · 0 评论 -
Python:Linux hadoop 脚本实现 reduce合并数据
准备数据、创建map.py、red.py,脚本实现需求.原创 2021-11-02 10:04:21 · 576 阅读 · 0 评论 -
Spark.sql:IDEA操作 MySQL、Hive
启动各组件、读取MySQL数据库;Spark SQL 查询、写入 MySQL数据;操作Hive数据集、准备环境配置、在 Hive中创建数据库和表;Spark交互式中Hive写入数据。原创 2021-04-14 22:52:48 · 2015 阅读 · 0 评论 -
Hadoop集群搭建及配置⑨——Hive 可靠的安装配置,远程连接MySQL
解压hive、 配置环境变量、 hive-env.sh、hive-site.xml、Hive与Mysql通信 、解决版本冲突和jar包依赖问题 、hive目录下启动Hive服务端、客户端。原创 2021-04-13 14:02:40 · 630 阅读 · 0 评论 -
Centos7 MySQL安装 —— 用网盘简单安装。 附 ✦ hive 网盘资源。
卸载MariaDB数据库、百度云盘下载Mysql、解压Mysql压缩包、Mysql数据库的初始化、 Mysql修改登入密码。原创 2021-04-13 13:28:18 · 450 阅读 · 0 评论 -
Hadoop集群搭建及配置⑧——Hbase的安装配置
掌握基础环境配置掌握hbase安装掌握运用hbase-shell原创 2021-03-11 19:25:43 · 2128 阅读 · 0 评论 -
解决spark单点故障问题——Spark HA部署
1. 查看zookeeper 的zoo.cfg文件2. 配置spark-env.sh 文件(三个节点)3. 单点故障操作原创 2021-03-14 18:26:27 · 562 阅读 · 0 评论 -
Hadoop集群搭建及配置⑦—— Spark&Scala安装配置
用FTP把压缩包发送到linux master、linux系统下的安装scala、安装Spark原创 2021-03-08 09:59:01 · 1767 阅读 · 0 评论 -
HDFS的常用命令
上传,下载,改权限,创建,删除原创 2021-03-22 11:05:29 · 1231 阅读 · 0 评论 -
Hadoop集群搭建及配置⑥ —— Hadoop组件安装及配置
配置环境变量、Hadoop各组件、格式化HDFS、启动集群、访问集群Web UI原创 2021-02-09 22:45:22 · 1852 阅读 · 1 评论 -
Hadoop集群搭建及配置⑤ —— Zookeeper 讲解及安装
安装Zookeeper 配置文件、远程复制分发文件、配置zookeeper环境变量、启动ZooKeeper集群。原创 2021-02-09 17:37:53 · 1483 阅读 · 0 评论 -
Hadoop集群搭建及配置④ —— JDK简介及其安装
JDK简介及其安装、 删除Linux自带Java包、 创建Java文件、解压java压缩包、 设置java环境变量、远程复制Java到 其他节点。原创 2021-02-09 16:31:39 · 1292 阅读 · 0 评论 -
Hadoop集群搭建及配置③ —— 基础环境搭建
修改主机名、 配置hosts文件、永久关闭防火墙、时间同步、 时区一致、选择时区:tzselect、下载ntp、配置SSH免密码登录原创 2021-02-08 19:35:44 · 1373 阅读 · 0 评论 -
Hadoop集群搭建及配置② —— 网络IP配置,连接网络。
查看网关,IP、配置Linux网络配置文件、配置vmnet8虚拟网卡的ip(要根据实际主机的ip段来配置)。原创 2021-02-08 12:53:13 · 5708 阅读 · 1 评论 -
Hadoop集群配置① —— 克隆节点
小白式教程原创 2021-02-08 12:02:45 · 1130 阅读 · 2 评论 -
Hadoop集群搭建及配置〇 —— Hadoop组件获取 & 传输文件
Hadoop各组件压缩为获取、 传输文件原创 2021-02-10 16:55:18 · 2320 阅读 · 9 评论