大数据技术与应用
文章平均质量分 59
Agoni_u
这个作者很懒,什么都没留下…
展开
-
5.7 Spark简单算子案例(Python版)
第一关 WordCount - 词频统计编程要求对文本文件内的每个单词都统计出其出现的次数。 按照每个单词出现次数的数量,降序排序。文本文件内容如下(单词与单词之间以空格进行分割):hello javahello python javahello python pythonhello flinkscala scala scala scala scala预期输出: (scala,5) (hello,4) (python,3) (java,2...原创 2022-01-02 19:32:58 · 5739 阅读 · 0 评论 -
5.6 Spark算子
第一关 map案例sc = SparkContext("local", "Simple App")data = [1,2,3,4,5,6]rdd = sc.parallelize(data)print(rdd.collect())rdd_map = rdd.map(lambda x: x * 2)print(rdd_map.collect())输出:[1, 2, 3, 4, 5, 6][2, 4, 6, 8, 10, 12]编程要求...原创 2022-01-02 23:45:00 · 2192 阅读 · 0 评论 -
5.5 RDD的创建(Python版)
第一关 集合并行化创建RDD编程要求编写一个集合并行化创建RDD的程序。代码实现# -*- coding: UTF-8 -*-from pyspark import SparkContextif __name__ == "__main__": #********** Begin **********# # 1.初始化 SparkContext,该对象是 Spark 程序的入口 sc = SparkContext("local", "Simpl...原创 2022-01-02 23:00:00 · 4085 阅读 · 0 评论 -
5.4 RDD概述
相关知识RDD介绍RDD是Spark的核心抽象,即 弹性分布式数据集(residenta distributed dataset)。代表一个不可变,可分区,里面元素可并行计算的集合。其具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。 在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用 RDD操作进行求值。RDD结构图RDD具有五大特性: 一组分片(Partition),即数据集的基本组成单...原创 2022-01-02 22:00:00 · 543 阅读 · 0 评论 -
5.3 Spark任务提交
spark-submit提交编程要求:jar包所在位置:/root/project.jar主类:Student 提交模式:local预期输出:(bj,88)(sh,67)(gz,92)代码实现:#!/bin/bashcp -r Spark/SparkRDD/target/project.jar /rootcd /opt/spark/dist/bin#********** Begin **********#./spark-sub...原创 2022-01-02 21:45:00 · 1641 阅读 · 0 评论 -
5.2 Spark运行架构及流程检测
1、以下层级关系正确的是?AA、Job->Stage->TaskB、Stage->Task->JobC、Task->Job->StageD、Job->Task->Stage2、以下哪项可以反映RDD之间的依赖关系?BA、DriverB、DAGC、StageD、Cluster Manager3、Stage的task数量由...原创 2022-01-02 21:45:00 · 1819 阅读 · 0 评论 -
5.1 Spark的安装与使用
第一关 Scala语言开发环境的部署 1.下载解压在Scala官网根据平台选择下载Scala的安装包scala-2.17.7.tgz解压到/app目录下:mkdir /app //创建 app 目录cd /opttar -zxvf scala-2.12.7.tgz -C /appeducoder平台已经将解压包下载在/opt目录下了,就不需要再从网络下载了,只需要解压即可。 2.配置环境...原创 2022-01-02 20:30:00 · 7759 阅读 · 2 评论 -
4.2 HBase伪分布式环境搭建
1.在命令行输入以下代码:mkdir /appcd /optulimit -f 1000000tar -zxvf hbase-2.1.1-bin.tar.gz -C /app2.修改hbase-env.sh文件vim /app/hbase-2.1.1/conf/hbase-env.sh 在两个configuration中加入以下代码:export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_1113.修改hbase-site.x...原创 2022-01-02 20:00:00 · 2197 阅读 · 0 评论 -
4.1 Hbase的安装与简单操作
第一关 Hbase数据库的安装1.首先要在官网下载好Hbase的安装包(educoder已装到/opt目录下)2.将安装包解压到/app目录下mkdir /appcd /optulimit -f 1000000tar -zxvf hbase-2.1.1-bin.tar.gz -C /app3.查询JAVA_HOME的路径echo $JAVA_HOME查询结果,把它复制下来:4.编辑HBase conf目录下的hbase-env.sh文件,将其中的JAVA.原创 2022-01-02 15:30:47 · 18373 阅读 · 1 评论 -
3.2 电信数据清洗
原创 2021-12-06 09:50:05 · 3294 阅读 · 1 评论 -
3.1 python版mapreduce
第一关第二关第三关原创 2021-12-01 22:59:08 · 2378 阅读 · 3 评论 -
2.2 分布式文件系统HDFS
educoder 分布式文件系统原创 2021-11-24 16:00:00 · 5828 阅读 · 0 评论 -
2.1 Hadoop环境搭建
educoder 分布式系统环境搭建原创 2021-11-23 23:04:35 · 3915 阅读 · 1 评论 -
1.10数据库编程练习
第一关 数据库表创建编程要求在名为nudt的数据库下,创建课程表(Course)和教师表(Teacher),表结构如下:课程表(Course)字段名 字段类型 说明 Cno CHAR(10) 课程编号(主键) Cname CHAR(100) 课程名称 Tno CHAR(10) 教师编号 教师表(Teacher)字段名 字段类型 说明 Tno CHAR(10) 教师编号(主键)...原创 2021-11-21 12:00:00 · 1105 阅读 · 0 评论 -
1.9模块
第一关 模块的定义任务描述在Python程序的开发过程中,为了代码维护的方便,我们可以把函数进行分组,分别放到不同的.py文件里,这样,每个文件包含的代码就相对较少,这个.py文件就称之为一个模块(Module)。本关的目标是了解并掌握Python模块定义的相关知识。编程要求 1.输入直角三角形的两个直角边的边长a和b,要求计算出其斜边边长; 2.要求使用math模块,并输出计算结果,结果保留小数点后三位小数。代码实现#...原创 2021-11-20 12:00:00 · 1126 阅读 · 1 评论 -
1.8字典
字典和列表一样,都是Python中十分重要的可变容器模型,都可以存储任意类型元素。第一关 字典的使用任务描述我们将以菜单的例子来说明字典使用的基本知识:餐馆的菜单上不仅包含菜名,菜名后面还必须包含该道菜的价格。如果要用列表实现,就需要两个列表,例如:list_menu = ['fish','pork','potato','noodles'] list_price = [40,30,15,10]给定一个菜名,要查找相应的价格...原创 2021-11-19 20:00:00 · 1132 阅读 · 0 评论 -
1.7元组
元组看起来犹如列表,但元组使用圆括号()而不是[]来标识,而且列表的元素可以修改,但元组的元素不能修改。原创 2021-11-18 06:00:00 · 241 阅读 · 0 评论 -
1.5 循环结构
第一关原创 2021-11-14 21:10:12 · 750 阅读 · 0 评论 -
1.6列表
第一关 增删改查任务描述对一个给定的列表进行增、删、改等操作,并输出变化后的最终列表。编程要求 1.将guests列表末尾的元素删除,并将这个被删除的元素值保存到deleted_guest变量 2.将deleted_guest插入到step1删除后的guests列表索引位置为2的地方; 3.将step2处理后的guests列表索引位置为1的元素删除 4.打印输出step1的deleted_guest变量。 5.打印输出ste...原创 2021-11-16 22:47:28 · 639 阅读 · 0 评论 -
1.4 顺序与选择结构
第一关 顺序结构任务描述本关介绍顺序结构,程序最基本的结构就是顺序结构,顺序结构就是程序按照语句顺序,从上到下依次执行各条语句。本关要求读者理解顺序结构,对输入的三个数changeone,changetwo,plus能够先交换changeone,cahngetwo值,然后计算changeone + plus的值。编程要求程序中给出a,b,c三个整数,要求实现先交换a,b的值,然后计算a + c的值并输出。代码实现changeOne...原创 2021-11-13 11:00:23 · 865 阅读 · 0 评论