自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (3)
  • 收藏
  • 关注

原创 Linux中文显示:解决Windows传到linux文件中文乱码

问题描述:博主准备将还有中文的data文件从windows传到linux进行大数据分析,但是发现从windows传到linux之后,中文乱码。

2022-04-19 22:33:54 1855

原创 Spark 练习测试题(答案仅供参考)

选择题1. spark 的四大组件下面哪个不是 (D)A.Spark Streaming B MLlib C Graph X D Spark R2. Hadoop框架的缺陷有 (ABC)A.表达能力有限,MR编程框架的限制B.过多的磁盘操作,缺乏对分布式内存的支持C.无法高效低支持迭代式计算D.海量的数据存储3. 与hadoop相比,Spark主要有以下哪些优点(ABCD)A. 提供多种数据集操作类型而不仅限于MapReduceB. 数据集中式计算而...

2021-07-05 23:51:57 11043 2

原创 可视化随笔 奥运会数据集实验心得

数据集介绍运动员赛事数据集 athlete_events.csv题目:参赛者男女比例组成情况(用groupby函数根据年龄分组计数,并用pyecharts绘制饼图)

2021-05-30 23:42:07 275

原创 MongoDB笔记(十二) 通过java访问MongoDB

实验环境:MongoDB 3.4.4 eclipse1.下载驱动包Central Repository: org/mongodb (maven.org)

2021-05-30 23:04:11 457

原创 flink笔记16 flink table windows(Group Windows/Over Windows)

1.介绍时间语义,要配合窗口操作才能发挥作用。最主要的用途就是开窗口、根据时间段做计算在Table API和SQL中,主要有两种窗口:Group Windows 和 Over WindowsGroup Windows 根据时间或行计数间隔将组行聚合成有限的组,并对每个组计算一次聚合函数 Over Windows窗口内聚合为每个输入行在其相邻行范围内计算一个聚合2.Group Windows(分组窗口)注意点:Group Windows 是使用 .window子句定义的,并且必须由a.

2021-05-27 20:45:11 361

原创 flink笔记15 flink table表的时间属性

时间属性介绍像窗口(在 Table API和 SQL)这种基于时间的操作,需要有时间信息。因此,Table API 中的表就需要提供逻辑时间属性来表示时间,以及支持时间相关的操作。每种类型的表都可以有时间属性,可以在用CREATE TABLE DDL创建表的时候指定、也可以在DataStream中指定、也可以在定义TableSource时指定。一旦时间属性定义好,它就可以像普通列一样使用,也可以在时间相关的操作中使用。时间属性可以像普通的时间戳的列一样被使用和计算。一旦时间属性被用在了计算中..

2021-05-27 10:12:32 456

原创 flink笔记14 动态表(Dynamic Tables)

动态表概念在流上定义表连续查询更新和追加查询表到流的转换概念动态表是 Flink 的支持流数据的 Table API 和 SQL 的核心概念。与表示批处理数据的静态表不同,动态表是随时间变化的。可以像查询静态批处理表一样查询它们。查询动态表将生成一个连续查询。一个连续查询永远不会终止,结果会生成一个动态表。查询不断更新其(动态)结果表,以反映其(动态)输入表上的更改。本质上,动态表上的连续查询非常类似于定义物化视图的查询。注意:连续查询的结果在语义上总是等价于...

2021-05-26 22:24:46 736

原创 flink笔记10 [实验]体验ProcessingTime和指定EventTime下的区别

体验ProcessingTime和指定EventTime下的区别实验数据实验代码实验结果实验分析实验数据sensor_1,1619492107,36.2sensor_1,1619492108,36.0sensor_1,1619492109,36.5sensor_1,1619492110,34.3sensor_1,1619492111,34.3sensor_1,1619492112,34.3sensor_1,1619492113,34.3sensor_1,1619.

2021-05-26 17:20:23 274

原创 flink笔记9 [实验]体验窗口开启时间和关闭时间(Eventtime)

实验数据sensor_1,1619492107,36.2sensor_1,1619492108,36.0sensor_1,1619492109,36.5sensor_1,1619492110,34.3sensor_1,1619492111,34.3sensor_1,1619492112,34.3sensor_1,1619492113,34.3sensor_1,1619492114,34.3sensor_1,1619492115,34.3sensor_1,1619492116,34.3

2021-05-26 17:04:15 344 3

原创 MongoDB笔记(十一) MongoDB伪分布式启动与测试

mongod -port 27017 -dbpath "d:\NoSQL\MongoDB\data\db" -logpath "d:\NoSQL\MongoDB\data\mongodb.log" -replSet rs0mongod -port 27018 -dbpath "d:\NoSQL\MongoDB1\data\db" -logpath "d:\NoSQL\MongoDB1\data\mongodb.log" -replSet rs0mongod -port 27019 -dbpat.

2021-05-21 16:29:43 330 1

原创 MongoDB 笔记(十) MongoDB伪分布配置

我的MongoDB的bin目录D:\soft\NoSQL\MongoDB\data\bin1.在NoSQL文件夹下再新建两个文件夹(NoSQL1、NoSQL2)2.在新建的NoSQL1和NoSQL2文件夹下 新建data文件夹,在data文件夹下新建两个文件夹(db、log)3.将MongoDB下的bin目录复制到MongoDB1和MongoDB下的data文件夹下4.用管理员打开命令提示符并输入以下命令(先切换到MongoDB的bin目录下)mongod -...

2021-05-14 20:31:25 628 3

原创 flink笔记13 [Table API和SQL] 查询表、输出表、查看执行计划

1.转换查询Flink给我们提供了两种查询方式:Table API和 Flink SQL

2021-05-11 23:37:00 768

原创 flink笔记12 [Table API和SQL] 创建表环境、创建表

1.创建表环境创建表环境,需要将flink流处理的执行环境传入val tableEnv = StreamTableEnvironment.create(env) // 最简单的创建表环境TableEnvironment是flink中集成Table API和SQL的核心概念,所有对于表的操作都基于TableEnvironment其他创建方法:// 基于老版本planner的流处理val settings = EnvironmentSettings....

2021-05-11 13:23:39 1794

原创 flink笔记11 Flink Table API和SQL的简单实例

Apache Flink有两个关系应用编程接口——the Table API and SQL,用于统一的流和批处理The Table API and SQL相互无缝集成,与Flink的DataStream API无缝集成1.Table API & SQL简介Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改flink根据使用的便捷性提供了三种API,自下而上是:Table API & SQL特..

2021-05-10 22:50:08 290

原创 MongoDB笔记(九) 集合操作

集合操作1.创建集合2.查看当前数据库所有集合3.删除集合1.创建集合语法:db.createCollection(name,option)option: -capped 设置值为false即无上限 true表示设置上限 -size 当capped为true时,设定此参数;表示上限大小,单位:字节;当文档达到上限,会将之前的数据覆盖实例:> db.createCollection("test"){ "ok" : 1 }2.查看当前数据库所

2021-05-08 12:59:36 70

原创 MongoDB笔记(八) 聚合(详细)

三种聚合的方法1.管道聚合方法2.map-reduce方法3.单一目标聚合方法聚合操作主要用于处理数据并返回计算结果。聚合操作将来自多个文档的值组合在一起,按条件分组后,再进行一系列操作(如求和、平均值、最大值、最小值)以返回单个结果。以下例子所使用的集合里面的文档> db.sale_detail.insert([... {goodsid:"1001",amount:2,price:10.2,ok:false},... {goodsid:"1001",amount:3,p

2021-05-08 09:46:36 410

原创 pyspark:rdd.foreach(print)报错NameError

报错原因:应该是pyspark低里自带一个Python2版本,可以通升级pyspark自带的python版本来解决还有一个表现就是:当使用rdd.collect()时,会出现不正常的u字母[(u'DataStructure', 5), (u'Music', 1), (u'Algorithm', 5), (u'DataBase', 5)]如何查看是不是这个错误:在启动的时候可以看到你的python版本上图的python版本就是python 2.7.5解决方法:1.安装pytho

2021-05-04 22:11:32 1579 2

原创 MongoDB笔记(七) 索引(详细)

1.单一字段索引命令:db.collection_name.createIndex({<key>:<n>})key:键名n=1:表示升序n=-1:表示降序实例:> db.books.insertMany(... [... {name:"<a cat story>",price:20,color:"red"},... {name:"<crying birds story>",price:20,color:"green"},

2021-05-01 22:13:03 162

原创 MongoDB笔记(六) 删除操作(详细)

目录1.删除全部2.删除符合条件3.删除满足条件的单条文档4.delete1.删除全部命令:​> db.collection.remove({})实例:> db.test.insertMany(... [... {item:"铅笔",price:2},... {item:"钢笔",price:60}... ]... ){ "acknowledged" : true, "insertedIds" : [ .

2021-05-01 21:14:53 1302 1

原创 flink笔记8 WaterMark

WaterMarkWaterMark介绍WaterMark的特点WaterMark设定方法WaterMark介绍流处理从事件产生,到流经 source,再到 operator,中间是有一个过程和时间的,由于网络、分布式等原因,可能导致乱序或迟到的产生。所谓乱序,就是指 Flink 接收到的事件的先后顺序不是严格按照事件的 Event Time 顺序排列的。Watermark 是用于处理乱序事件的,通常用Watermark 机制结合 window 来正确处理乱序事件;Water

2021-04-26 21:04:26 81

原创 HIVE的DDL DML随笔

DDL数据库的增删改查 注释 显示数据库 show databases; *:占位符,占多位,%:占位符,占一位 show databases like 'big*'; 显示数据库信息 desc databasedatabase_name; desc:describe desc database extendeddatabase_name; 创建数据库 create databasedatabase_name; 数据库在 HDFS 上的默认...

2021-04-21 19:19:29 57

原创 Spark生态系统和运行架构

Spark是一个可应用于大规模数据处理的快速、通用引擎,spark提供了内存计算和基于DAG的任务调度机制。Spark最大的特点就是将计算数据、中间结果都存储在内存中,因此更适合于迭代运算。1.Spark 生态系统Spark 生态圈Spark设计遵循”一个软件栈满足不同应用场景“的理念,逐渐形成了一整套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即时查询(Spark SQL)、流计算(Spark Streaming)、机器学习(MLlib)和图计算(GraphX)等。Spark还可以.

2021-04-18 15:56:43 1042

原创 Pyecharts简单使用 饼图和环形图

参考官方文档:https://pyecharts.org/#/zh-cn/intro

2021-04-18 10:47:19 3792 1

原创 MongoDB笔记(五) 更新操作(详细)

创建集合(插入文档):> db.order_test.insert(... {title:"商品购物单1",... amount:35,... detail:[{name:"苹果",price:22},... {name:"面粉",price:79}]... })WriteResult({ "nInserted" : 1 })> db.order_test.find().pretty(){ "_id" : ObjectId("60795de10f65fbc0

2021-04-17 13:45:01 188

原创 flink笔记7 Flink时间语义和Window

Flink的三种时间语义事件生成时间 Event time :事件自身的时间,一般就是数据本身携带的时间 事件接入时间 Ingestion time :事件进入Flink的时间,在数据源操作处(进入 Flink source 时),每个事件将进入 Flink 时当时的时间作为时间戳 事件处理时间 Processing time :是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time例如,一条日志进入Flink 的时间为2017-11-1..

2021-04-15 13:10:43 147

原创 可视化随笔 阶梯图

fig.ax=plt.subplots(figsize=(10,4))1.plt、ax区别如果将Matplotlib绘图和我们平常画画相类比,可以把Figure想象成一张纸(一般被称之为画布),Axes代表的则是纸中的一片区域(当然可以有多个区域,这是后续要说到的subplots)。两种绘图方式区别plt.plot():先生成了一个Figure画布,然后在这个画布上隐式生成一个画图区域进行画图。ax.plot():第二种方式同时生成了Figure和axes两个对象,然后用ax对象.

2021-04-13 12:45:49 245 4

原创 可视化随笔 绘图入门pyplot

plt.subplots()是一个函数,返回一个包含figure和axes对象的元组。因此,使用fig,ax = plt.subplots()将元组分解为fig和ax两个变量。参考:plt.subplots()的使用【Python】 【绘图】plt.figure()的使用...

2021-04-13 11:02:28 76

原创 MongoDB笔记(四) 查询操作(详细)

查询操作(详细)1.查询集合所有文档2.等值条件查询3.嵌套文档查询4.数组查询5.查找null值字段,查找指定无值字段6.或条件查找7.查询操作符1.查询集合所有文档db.goodstest.find() //goodstest:collection namedb.goodstest.find().pretty()> db.goodstest.find(){ "_id" : ObjectId("60744b754a2bf7c456867

2021-04-12 22:57:48 274

原创 MongoDB笔记(三) 插入操作(详细)

1.插入一条文档

2021-04-12 22:14:03 301

原创 Coding创建项目,并用git把本地上传到Coding

1.在coding上创建项目(之前先注册登录)注意:注册coding时使用邮箱,①创建项目:如果是第一次的话可能出现下图,点击完成创建引导项目,再新建一个项目即可②创建代码仓库:点击下图复制网址(git clone 时使用)2.克隆云端仓库到本地git clone https://e.coding.net/YY-xiaolei/home/Home.git //后面这个网址复制自己的 若出现下图这种报错则到...

2021-04-12 14:29:49 588 1

原创 flink笔记6 DataStream API(二)Transform、sink介绍和使用

3.Transform(1) 简单转换算子① Map:输入一个元素,然后返回一个元素,中间可以做一些清洗转换等操作object Transform1 { def main(args: Array[String]): Unit = { val inputdata = List(1,2,3,4,5) val resultdata = inputdata.map(_+10) print(resultdata) }}// 结果: List(11, 1.

2021-04-12 09:39:41 202

原创 flink笔记5 DataStream API(一)Environment、Source介绍和使用

一.Environment1. StreamExecutionEnvironment调用静态方法getExecutionEnvironment(),得到一个执行环境,用于执行我们的程序。val env = StreamExecutionEnvironment.getExecutionEnvironmentgetExecutionEnvironment会根据查询运行的方式决定返回什么样的运行环境,是最常用的一种创建执行环境的方式。2. 创建本地执行环境:val env = Stream

2021-04-11 15:11:02 208

原创 MongoDB笔记(一)简单介绍

1.NoSQLNoSQL(Not only SQL):主体符合非关系型、分布式、开放源码和具有横向扩展能力的下一代数据库。非关系型数据库统称为NoSQL数据库。主要用于互联网上数据的存储。

2021-04-09 12:35:25 120

原创 MongoDB笔记(二) MongoDB数据库操作

MongoDB数据库操作1.查看所有数据库2.创建数据库3.查看当前正在使用的数据库4.统计数据库信息5.删除当前使用的数据库6.查看集合7.查看当前db版本MongoDB数据库初始安装完成后,默认的数据库是test。如果没有创建新的数据库,集合将存储在test数据库中。如果自定义数据库没有插入记录,则用户查看数据库时是不会显示的,只有在插入数据的数据库才会显示相应的信息。1.查看所有数据库使用show命令查看当前数据库列表命令:>show db.

2021-04-09 11:52:56 198

原创 Spark本地模式搭建(local模式)

1.下载安装包官网:https://spark.apache.org/选择Download

2021-04-08 17:28:29 291

原创 flink笔记4 flink在local模式下两种提交job的方法

目录1.网页1.1自己的流处理程序1.网页1.1自己的流处理程序import org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, createTypeInformation}object StreamWordCount { def main(args: Array[String]): U.

2021-04-08 13:25:13 776

原创 flink笔记3 DataStream 外部命令提交参数

1.编写代码package org.tysf.yximport org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, createTypeInformation}object StreamWordCount { def main(args: Array[String]): Unit = { //创建执行环境 val env = StreamExecutionEnvironment.getExec

2021-03-30 10:15:52 86

原创 flink笔记2 Flink DataStream 设置并行度的几种方法

1.创建执行环境后设置(1)val env = StreamExecutionEnvironment.getExecutionEnvironment env.setParallelism(4)2.创建执行环境后设置(2)val env = StreamExecutionEnvironment.getExecutionEnvironment StreamExecutionEnvironment.createLocalEnvironment(3)3.对数据进行转换处理时设置

2021-03-30 09:44:19 429

原创 flink笔记1 使用Scala实现WordCount程序(批处理和流处理)

1.批处理实现1.1代码讲解1.val env = ExecutionEnvironment.getExecutionEnvironment创建一个批处理的执行环境,主要注意引用的包应该是org.apache.flink.api.scala.ExecutionEnvironment1.2附完整代码import org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.api.scala._//.

2021-03-30 09:07:27 430

原创 Centos7将虚拟机原先的桥接模式改成NAT模式

本文只是为了记录老师教的将桥接模式修改成.net模式的文章bridged networking(桥接模式)在该模式下,VMWare虚拟出来的操作系统就像是局域网中的一台独立的主机,可以访问网内任意一台机器,包括宿主机。配置时必须要手工为虚拟系统配置IP地址(与宿主机同网段不同ip)、子网掩码、网关和DNS的地址。...

2021-03-17 21:08:47 893 3

大数据培训心得.docx

只是想记录一下个人的心得

2021-06-07

大数据练习题答案.docx

大数据的习题配套答案,关于基础知识和HDFS,MapReduce的 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2020-12-14

大数据练习题.docx

一些大数据的习题,关于基础知识和HDFS,MapReduce的 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2020-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除