- 博客(320)
- 收藏
- 关注
原创 大数据:脚本实现WordCount,结果以压缩格式输出到HDFS
脚本实现WordCount,词频统计结果以压缩格式输出到HDFS,然后对HDFS的压缩文件再用脚本解压。
2022-07-04 22:03:58
391
原创 大数据:MapReduce 文件分发与打包 —— 以wordCount为例
指定计算白名单内单词的wordcount,以-file格式分发文件以及打包
2022-06-07 18:23:33
516
1
原创 大数据:以Linux脚本实现 Map Reduce 的运用 —— 以wordCount为例
用Linux脚本实现 MapReduce —— 以wordCount为例
2022-06-07 13:35:54
982
原创 Python C++ 实现 输出1-1000以内的回文数
回文数,即正反读都是相同的数,如1221、12321等。【分析】:分三种情况讨论:1-9范围 一定是回文数,直接输出即可;10-99范围,当个位数与十位数都相同,就是回文数;100-999范围 当个位数与百位数都相同,就是回文数;C++代码实现:/*2、用除法与取余结合获取个十百位数;3、用if判断,只要位数相等,就是回文数输出。 */ #include<iostream>using namespace std;int main() { int sum = 0;
2022-05-30 00:30:27
4784
原创 Python C++ 实现 掷4个骰子,输出点数和为12的所有情况
掷4个骰子,输出点数和为12的所有情况。【分析】:由题意知,每个骰子都有六种可能那投掷的结果是6666,在这些可能中筛选出点数和为12的所有情况;翻译成编程语言:6666次数可以用for循环嵌套表示,只要用判断语句if判断骰子和为12的情况就输出各个骰子数。C++代码实现/* 1、定义4个整型变量代表 a,b,c,d四个骰子;2、4个嵌套for循环,最里面的for循环进行if语句判断。3、if (a+b+c+d==12)就输出各个骰子数。*/#include<iostream>
2022-05-30 00:10:13
592
原创 Python:用户登陆程序需求(三次机会)
【练习】用户登陆程序需求:输入用户名和密码判断用户名和密码是否正确?为了防止暴力破解, 登陆仅有三次机会, 如果超过三次机会,报错提示。flag = Falsefor i in range(3): name = input("用户名:") passwd = input("密码:") if name == 'root' and passwd == '123456': print("登陆成功") flag = True bre
2022-05-30 00:01:15
3736
原创 Python:列表浅层快速掌握 —— 创建、访问、增加、删除、修改、统计及计算
我们了解什么是列表,列表创建的两种方式,访问列表用索引下标、切片、遍历访问,对列表的增删改查,常见列表操作的小技巧
2022-05-17 11:48:41
1410
原创 Spark:Streaming 实践 Dstream 转换算子、窗口、输出文件
启动集群、IDEA安装依赖;启动服务端监听 Socket 服务,实现 transform() 、UpdateStateByKeyTest 、Dstream 窗口、输出操作。
2021-12-07 12:04:17
3215
原创 Flume:搭建配置以及 source读取在netcat、http,sink 落实在本地、HDFS
Flume 理论、简介、特点、结构;创建并解压配置文件Flume、配置 flume-env.sh文件、Flume环境变量;配置conf、分发文件;Flume的conf 多种部署。显示结果是过滤数据、通过netcat作为source, sink写到hdfs、通过HTTP作为source, sink写到logger、多节点进行串联。
2021-11-29 09:10:27
2899
原创 Spark:运行架构与原理、作业运行模型、RDD、调优 理论介绍
Spark 基础、概述、特点、 应用场景;Spark 与 Hadoop 对比、Spark运行架构与原理、Spark和的MR作业运行模型,线程优缺点、区别;Spark 核心:RDD介绍、窄依赖和宽依赖;内存模型、资源参数调优、 开发调优。
2021-11-22 21:17:20
2062
原创 Spark:spark-shell 处理需求
每个用户平均购买订单的间隔周期、每个用户的总订单数量(分组)、每个用户购买的product商品去重后的集合数据、每个用户总商品数量以及去重后的商品数量(distinct count)、每个用户购买的平均每个订单的商品数量(hive已经实现过了)
2021-11-21 21:32:59
1339
原创 Hive:数据进行替换切分后的结果保存为新表,新表进行分词
了解数据、处理数据、替换函数:regexp_replace、用split 进行切分数据、jieba 分词
2021-11-20 22:25:50
2933
1
原创 Spark:SQL操作 cache、filter、selectExpr、agg、join、udf
统计订单中商品的数量、统计商品被再次购买(reordered)的数量、统计被重复购买的比率。
2021-11-18 22:45:34
3139
1
原创 Scala:实现 wordCount 需懂得的基础知识,真不简单
读取数据、切分数据--> map(x=>(过滤,1))、分组,统计次数、转换类型、排序、分片,输出结果。
2021-11-18 10:06:35
682
原创 Hive:优化Reduce,查询过程;判断数据倾斜,MAPJOIN
数据存储格式、Reduce的优化、、MAPJION、数据倾斜原因、特点、定位
2021-11-12 21:03:45
2256
原创 Hive:多种方式建表,需求操作
认识数据:u.data;创建udata表,加载数据;需求:得到某一个用户具体的评论时间。需求: 用户购买的商品数量大于100的有哪些用户?
2021-11-11 14:58:48
1234
原创 Hive:用SQL对数据进行操作,导入数据、清洗脏数据、统计数据订单、优化结果输出等等
准备数据、了解数据、将数据导入hive;如何清洗第一行的脏数据?每个用户有多少个订单? (分组);每个用户一个订单平均是多少商品?一个订单有多少个商品? 一个用户有多少商品?进行用户对应的商品数量 sum求和; 一个用户平均一个订单有多少个商品? 每个用户在一周中的购买订单的分布? 一个用户平均每个购买天中,购买的商品数量?每个用户最喜爱购买的三个商品product是什么?
2021-11-11 11:24:55
12753
3
原创 Python:绘制雪花动态图
控制雪花数量,随机设置雪花颜色RGB,随机设置雪花边数与大小,雪花生成的位置随机飘落。控制雪地数量,雪地设置为白色,透明度不一样,雪地地址大小随机。
2021-11-08 23:20:24
3833
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅