大数据 Linux
文章平均质量分 84
唐樽
24年状态:现在是东莞从事青少儿编程教育行业,用心对待孩子,孩子参加比赛有所成绩,有所成长。才疏学浅要不断学习进步。❛‿˂̵✧
展开
-
大数据:对数据进行简单排序、分桶排序——以WordCount为例
对小量数据的排序,简单排序,与分桶分区排序思维原创 2022-07-04 23:55:38 · 734 阅读 · 0 评论 -
大数据:脚本实现WordCount,结果以压缩格式输出到HDFS
脚本实现WordCount,词频统计结果以压缩格式输出到HDFS,然后对HDFS的压缩文件再用脚本解压。原创 2022-07-04 22:03:58 · 391 阅读 · 0 评论 -
大数据:MapReduce 文件分发与打包 —— 以wordCount为例
指定计算白名单内单词的wordcount,以-file格式分发文件以及打包原创 2022-06-07 18:23:33 · 516 阅读 · 1 评论 -
大数据:以Linux脚本实现 Map Reduce 的运用 —— 以wordCount为例
用Linux脚本实现 MapReduce —— 以wordCount为例原创 2022-06-07 13:35:54 · 982 阅读 · 0 评论 -
Kafka:IDEA Receiver方式消费kafka数据
用IDEA对kafka进行数据消费原创 2021-12-11 01:01:40 · 1519 阅读 · 4 评论 -
生态圈:大数据各组件基础搭建、深度学习。
里面是大数据组件的文章链接,方面各位需求点击浏览。原创 2021-12-07 17:24:39 · 2485 阅读 · 7 评论 -
Spark:Streaming 实践 Dstream 转换算子、窗口、输出文件
启动集群、IDEA安装依赖;启动服务端监听 Socket 服务,实现 transform() 、UpdateStateByKeyTest 、Dstream 窗口、输出操作。原创 2021-12-07 12:04:17 · 3215 阅读 · 0 评论 -
Flume:kafka+flume 对接数据
启动集群、kafka创建topic、编辑conf、清空日志文件、并执行python原创 2021-12-02 00:48:08 · 2070 阅读 · 0 评论 -
Flume:搭建配置以及 source读取在netcat、http,sink 落实在本地、HDFS
Flume 理论、简介、特点、结构;创建并解压配置文件Flume、配置 flume-env.sh文件、Flume环境变量;配置conf、分发文件;Flume的conf 多种部署。显示结果是过滤数据、通过netcat作为source, sink写到hdfs、通过HTTP作为source, sink写到logger、多节点进行串联。原创 2021-11-29 09:10:27 · 2899 阅读 · 0 评论 -
大数据:数据的日志采集与用途
系统架构流程图、离线处理、实时在线;职业定位;数据采集用途、日志; 数据模型、产生、划分、质量检测、日志传输原创 2021-11-25 17:08:32 · 6168 阅读 · 1 评论 -
Spark:运行架构与原理、作业运行模型、RDD、调优 理论介绍
Spark 基础、概述、特点、 应用场景;Spark 与 Hadoop 对比、Spark运行架构与原理、Spark和的MR作业运行模型,线程优缺点、区别;Spark 核心:RDD介绍、窄依赖和宽依赖;内存模型、资源参数调优、 开发调优。原创 2021-11-22 21:17:20 · 2062 阅读 · 0 评论 -
Spark:spark-shell 处理需求
每个用户平均购买订单的间隔周期、每个用户的总订单数量(分组)、每个用户购买的product商品去重后的集合数据、每个用户总商品数量以及去重后的商品数量(distinct count)、每个用户购买的平均每个订单的商品数量(hive已经实现过了)原创 2021-11-21 21:32:59 · 1339 阅读 · 0 评论 -
Hive:数据进行替换切分后的结果保存为新表,新表进行分词
了解数据、处理数据、替换函数:regexp_replace、用split 进行切分数据、jieba 分词原创 2021-11-20 22:25:50 · 2933 阅读 · 1 评论 -
Spark:Centos7 安装 Anaconda
centos 懒人安装 anaconda原创 2021-11-19 21:14:43 · 1161 阅读 · 0 评论 -
Spark:SQL操作 cache、filter、selectExpr、agg、join、udf
统计订单中商品的数量、统计商品被再次购买(reordered)的数量、统计被重复购买的比率。原创 2021-11-18 22:45:34 · 3139 阅读 · 1 评论 -
Scala:实现 wordCount 需懂得的基础知识,真不简单
读取数据、切分数据--> map(x=>(过滤,1))、分组,统计次数、转换类型、排序、分片,输出结果。原创 2021-11-18 10:06:35 · 682 阅读 · 0 评论 -
Hive:优化Reduce,查询过程;判断数据倾斜,MAPJOIN
数据存储格式、Reduce的优化、、MAPJION、数据倾斜原因、特点、定位原创 2021-11-12 21:03:45 · 2256 阅读 · 0 评论 -
Hive:分桶的简介、原理、应用、创建
Hive 分桶简介、原理、应用场景;数据抽样;创建分桶。原创 2021-11-11 23:50:03 · 3641 阅读 · 0 评论 -
Hive:分区原因、创建分区、静态分区 、动态分区
为什么要分区?、如何分区以及细节、创建分区、静态分区动态分区原创 2021-11-11 20:37:28 · 3997 阅读 · 0 评论 -
Hive:多种方式建表,需求操作
认识数据:u.data;创建udata表,加载数据;需求:得到某一个用户具体的评论时间。需求: 用户购买的商品数量大于100的有哪些用户?原创 2021-11-11 14:58:48 · 1234 阅读 · 0 评论 -
Hive:用SQL对数据进行操作,导入数据、清洗脏数据、统计数据订单、优化结果输出等等
准备数据、了解数据、将数据导入hive;如何清洗第一行的脏数据?每个用户有多少个订单? (分组);每个用户一个订单平均是多少商品?一个订单有多少个商品? 一个用户有多少商品?进行用户对应的商品数量 sum求和; 一个用户平均一个订单有多少个商品? 每个用户在一周中的购买订单的分布? 一个用户平均每个购买天中,购买的商品数量?每个用户最喜爱购买的三个商品product是什么?原创 2021-11-11 11:24:55 · 12753 阅读 · 3 评论 -
Hive:数据管理、内外表、安装模式操作
Hive 的起源、数据管理、内外表、安装模式原创 2021-11-05 22:18:18 · 888 阅读 · 0 评论 -
Linux:reduce实现 合并列表数据
这个得自己进去看看才知道。原创 2021-11-02 12:54:00 · 674 阅读 · 0 评论 -
Python:Linux hadoop 脚本实现 reduce合并数据
准备数据、创建map.py、red.py,脚本实现需求.原创 2021-11-02 10:04:21 · 606 阅读 · 0 评论 -
MapReduce 计算框架 —— 执行流程详解
Map、Reduce 框架解释,框架的执行细节、运行模型;企业集群规划;Streaming 简介、优点、快速入门。原创 2021-11-02 00:00:26 · 1806 阅读 · 0 评论 -
在Linux环境实现wordcount:mapper,reducer的代码创建,脚本实现map,reduce
数据准备、map创建的初始、在map.py基础下创建red.py、map.py 重修版、用脚本run.sh 一步到位 执行map.py与red.py。原创 2021-10-22 23:07:13 · 890 阅读 · 0 评论 -
Spark Streaming 整合 Kafka,实现交流
Spark Streaming 整合 Kafka原创 2021-06-05 18:28:27 · 471 阅读 · 1 评论 -
Spark Streaming 实现网站热词排序
创建数据库来保存数据、创建HotWordBySort.scala实现功能。原创 2021-06-05 17:53:22 · 1815 阅读 · 0 评论 -
Hbase java API 实现增删改查
Hbase java API 实现增删改查原创 2021-06-01 16:40:31 · 1208 阅读 · 1 评论 -
Hbase:交互式简单增删改
交互式简单增删改,有手就行。原创 2021-06-01 14:48:11 · 178 阅读 · 0 评论 -
Spark MLlib 实现音乐推荐代码解
了解数据集、读取数据、数据预处理;代码实现 输出推荐用户的艺术家ID和艺术家; AUC 评价算法、 对训练数据进行预测、 评估模型;实现多用户推荐。原创 2021-06-01 10:57:09 · 1617 阅读 · 2 评论 -
Spark:对数据实现TopN
1、把数据上传至HDFS 。2、获取蜀国武将中武力值最高的5位,即通过分布式计算框架实现从原始数据查询出武力最高的Top5。原创 2021-05-31 11:11:08 · 948 阅读 · 0 评论 -
Spark:Streaming 实时计算框架理论
什么是实时计算、常用的实时计算框架;Spark Streaming 介绍、 工作原理DStream简介、编程模型、转换操作; DStream API 转换操作;Spark Streaming工作机制、程序的基本步骤、创建 StreamingContext对象原创 2021-05-24 15:57:28 · 1373 阅读 · 0 评论 -
实验五 Spark Streaming编程初级实践
Flume的安装与配置、使用Avro数据源测试、创建 avro.conf、启动 agent、使用netcat 数据源、测试Flume、创建 netcat.conf。原创 2021-05-16 21:11:25 · 7782 阅读 · 0 评论 -
Kafka Streams 小实践 ——开放词频统计应用
Kafka Streams 概述与实践词频统计原创 2021-05-07 01:07:58 · 607 阅读 · 3 评论 -
Kafka:基础理论知识
Kafka的基础知识--点对点消息传递模式、 发布订阅消息传递模式;Kafka核心组件介绍、Kafka 工作流程分析;生产者生产消息、消费者消费消息过程。原创 2021-05-07 00:49:15 · 619 阅读 · 0 评论 -
Kafka:分布式部署,实践、API连接操作
创建、 解压文件、 配置环境变量(三个节点)、分发文件,且修改server.properties(两个从节点)、 启动 kafka(三个节点)。创建 kafka的 主题、master 创建生产者生产消息、slave1 创建消费者消费信息。原创 2021-05-06 17:06:38 · 521 阅读 · 0 评论 -
关联 Hive 与 Hbase的数据一致
导入依赖 (master)、修改 hive-site.xml (master)、 启动相关服务;创建Hive表、 创建中间表、插入数据、测试是否数据一致原创 2021-04-23 15:17:41 · 648 阅读 · 0 评论 -
Spark SQL RDD、DataFrame、Dataset、反射推断机制 Schema 操作!!
Spark SQL 简介、 架构、工作流程;Catalyst优化器 五大组件;DataFrame 读取、保存数据,RDD 转换为 DataFrame;DataFrame 常用操作1:DSL、SQL; Dataset 介绍、对象的创建、反射推断机制 Schema。原创 2021-04-16 18:02:32 · 1539 阅读 · 0 评论 -
Spark SQL RDD基本操作、RDD—DataFrame、API MySQL
创建 test.json、test.json 上传 Hdfs;将 RDD转换为DataFrame创建文件 test.txt;利用DataFrame读写MySQL的数据;MySQL创建与操作 sparktest、 Spark API 操作 MySQL。原创 2021-04-15 16:29:08 · 1350 阅读 · 0 评论
分享