![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
文章平均质量分 69
書盡
再见容易,再见难
展开
-
ELK日志实时分析
使用filebeat采集日志数据,通过kafka将数据传输给logstash进行过滤,最后输出到Elasticsearch绘制数据图表。数据说明。原创 2022-11-15 14:41:21 · 1083 阅读 · 0 评论 -
Elasticsearch(技能点)
使用Logstash将数据采集到Elasticsearch中后,如果想在Kibana中对数据进行分析搜索,需要在Kibana中创建索引。能打开测试网页就说明web服务启动正常。在浏览器地址栏输入:虚拟机的IP地址。原创 2022-11-10 09:53:54 · 813 阅读 · 0 评论 -
Flink热门商品统计
项目所用的依赖,需要根据安装框架的版本来导入,否则会运行失败代码中使用的文件需要提前导入(UserBehavior.csv)原创 2022-10-31 15:07:19 · 744 阅读 · 0 评论 -
Pig股票交易数据处理
Pig包括两部分:用于描述数据流的语言,称为Pig Latin;和用于运行Pig Latin程序的执行环境。Pig不适合所有的数据处理任务,和MapReduce一样,它是为数据批处理而设计的。如果只想查询大数据集中的一小部分数据,pig的实现不会很好,因为它要扫描整个数据集或绝大部分。Pig Latin 程序有一系列语句构成。操作和命令是大小写无关的,而别名和函数名是大小写敏感的。Pig处理多行语句时,在整个程序逻辑计划没有构造完毕前,pig并不处理数据。原创 2022-10-11 10:27:37 · 704 阅读 · 0 评论 -
Pig 关系运算符
将HDFS中的/pig_input目录下的student.txt和score.txt两个文件中的数据分别加载到student和score关系中,并进行左外连接操作。将HDFS的/pig_input目录下的student.txt和score.txt中的数据加载到关系中,对student和score进行内连接操作。BinStorage() 使用机器可读写格式将数据加载并存储到Pig中。JsonLoader() 将非Json数据加载到Pig中。TextLoader() 将非结构化数据加载到Pig中。原创 2022-10-04 16:17:14 · 1087 阅读 · 0 评论 -
Hive任务实施(航空公司客户价值数据)
注意命令的使用与输入文件路径的引用建表字段的顺序。原创 2022-09-27 10:37:26 · 2290 阅读 · 1 评论 -
Hive基本查询语句
GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。(1)where 后面不能写分组函数,而 having 后面可以使用分组函数。(2)having 只用于 group by 分组统计语句。(2)使用表名前缀可以提高执行效率。(1)使用别名可以简化查询。原创 2022-09-17 14:27:46 · 1762 阅读 · 0 评论 -
Hive基础(DML 数据操作)
实操案例在目录下新建一个 student.txt 的文件。原创 2022-09-16 16:17:59 · 468 阅读 · 0 评论 -
Hive语句基础(表操作)
SerDe,Hive 通过 SerDe 确定表 的具体的列的数据。用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。DELIMITED,将会使用自带的 SerDe。在建表的时候,用户还需 要为表指定列,用户在指定表的列的同时也会指定自定义的。),在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。关键字可以让用户创建一个外部表,在建表的同时可以指定一个指向实际数据的路径(创建一个指定名字的表。: 允许用户复制现有的表结构,但是不复制数据。原创 2022-09-16 13:14:47 · 128 阅读 · 0 评论 -
Hive语句基础(库操作)
hive数据库基础语法操作原创 2022-09-15 15:08:54 · 218 阅读 · 0 评论 -
Hadoop伪分布式搭建教程(小白教程)
小白教程原创 2022-09-08 16:38:02 · 746 阅读 · 0 评论 -
HBase冠字号查询系统(实训报告)
HBase冠字号查询系统(实训报告)原创 2022-09-07 11:16:07 · 917 阅读 · 1 评论 -
spark例子
spark简单样例原创 2022-01-05 17:03:56 · 1022 阅读 · 0 评论 -
Hive 读写
在Hive中创建数据库和表:service mysql start #可以在Linux的任何目录下执行该命令service mysql start启动Hadoop,然后再启动Hivecd /usr/local/hadoop./sbin/start-all.shcd /usr/local/hive./bin/hivehive> create database if not exists sparktest;//创建数据库sparktesthive> show da原创 2021-12-28 10:37:53 · 1637 阅读 · 0 评论 -
把RDD保存成文件
把RDD保存成文件原创 2021-12-27 20:27:04 · 1767 阅读 · 1 评论 -
Hbase读写操作
Hbase的读写操作原创 2021-12-27 14:17:18 · 1325 阅读 · 0 评论 -
RDD操作
RDD被创建好以后,在后续使用过程中一般会发生两种操作:转换(Transformation): 基于现有的数据集创建一个新的数据集。行动(Action):在数据集上进行运算,返回计算值。转换操作:进行物理的转换操作filter(func):筛选出满足函数func的元素,并返回一个新的数据集val rdd =sc.parallelize(List(1,2,3,4,5,6)) val filterRdd = rdd.filter(_> 5)filterRdd.collect.原创 2021-12-26 18:57:48 · 961 阅读 · 0 评论 -
scala 基础学习(4)
map操作:让每个字符串都变成大写字母scala> val books = List("Hadoop", "Hive", "HDFS")books: List[String] = List(Hadoop, Hive, HDFS)scala> books.map(s => s.toUpperCase)res0: List[String] = List(HADOOP, HIVE, HDFS)(参数) => 表达式 //如果参数只有一个,参数的圆括号可以省略flat原创 2021-12-22 15:23:38 · 438 阅读 · 0 评论 -
scala 基础学习(3)
简单匹配:Scala的模式匹配最常用于match语句中val c = 1val cr = c match { case 1 => "red" case 2 => "green" case 3 => "yellow" case _ => "Not Allowed" } println(cr)//输出 red在模式匹配的case语句中,还可以使用变量val c = 4val cr = c match { case 1 =原创 2021-12-22 14:11:47 · 382 阅读 · 0 评论 -
scala基础学习(2)
数组常用算法scala> val a = Array(2,9,4,3)a: Array[Int] = Array(2, 9, 4, 3)scala> a.maxres34: Int = 9scala> a.sumres35: Int = 18scala> a.minres36: Int = 2scala> a.sorted //排序res37: Array[Int] = Array(2, 3, 4, 9)scala> a.sortWit原创 2021-12-21 20:35:03 · 444 阅读 · 0 评论 -
scala基础学习(1)
在路径 usr/local/src/scala/mycode目录下创建一个test.scala文档使用 vim或者 gedit 编辑,其中 gedit 比较好用命令: gedit test.scala 打开文档使用: scala test.scala 编译变量:1.val变量:定义变量2.var变量:在初始化以后还要不断修改的使用var定义val i=123 //123是int型,//同理: val i="123" =>>i=true(布尔型)也可以:v.原创 2021-12-20 21:51:10 · 373 阅读 · 0 评论