- 博客(57)
- 资源 (3)
- 收藏
- 关注
原创 【备忘录】软件记录
Anaconda 虚拟环境 创建Python环境。Jupyter Notebook 交互式开发环境。Spyder Python程序编辑。
2023-11-27 20:00:07 507
原创 Oracle数据库笔记(一)
主键:是表中的某个属性组(一个或多个),唯一确定一行;数据模型应满足三方面要求:能比较真实地模拟现实世界;MySQL、Oracle都是数据库管理系统(软件),可以在里面创建数据库。数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合。逻辑模型 为概念模型中的内容设计存储字段名、字段类型等等。对关系的描述:关系名(属性1,属性2,……用途:科学组织和存储数据、高效地获取和维护数据。数据(Data)是数据库存储的基本对象。数据模型是对现实世界数据特征的抽象。客观对象的抽象过程---两步抽象。
2023-11-21 20:24:12 256 1
原创 linux 下mysql 数据库设置中文
问题产生情况:使用sqoop将hive数据库的数据导出到hinux的mysql,在navicat上发现数据库里的中文全部变成了?3、进入 etc目录下打开 my.cnf 文件 ,对 my.cnf 进行修改,修改内容如下。4、修改完成之后进行保存,然后重启 mysql 服务。2.在网上教程的位置找不到文件/etc/my.cnf。1、先查看mysql原本的拉丁字符集。在[mysqld]最下面加入下面几句话。5.再次查看字符集是否修改。在配置文件里加这样几句话。mysql 启动命令。
2023-03-30 10:43:43 652
原创 Linux中文显示:解决Windows传到linux文件中文乱码
问题描述:博主准备将还有中文的data文件从windows传到linux进行大数据分析,但是发现从windows传到linux之后,中文乱码。
2022-04-19 22:33:54 3111
原创 Spark 练习测试题(答案仅供参考)
选择题1. spark 的四大组件下面哪个不是 (D)A.Spark Streaming B MLlib C Graph X D Spark R2. Hadoop框架的缺陷有 (ABC)A.表达能力有限,MR编程框架的限制B.过多的磁盘操作,缺乏对分布式内存的支持C.无法高效低支持迭代式计算D.海量的数据存储3. 与hadoop相比,Spark主要有以下哪些优点(ABCD)A. 提供多种数据集操作类型而不仅限于MapReduceB. 数据集中式计算而...
2021-07-05 23:51:57 18500 5
原创 可视化随笔 奥运会数据集实验心得
数据集介绍运动员赛事数据集 athlete_events.csv题目:参赛者男女比例组成情况(用groupby函数根据年龄分组计数,并用pyecharts绘制饼图)
2021-05-30 23:42:07 529
原创 MongoDB笔记(十二) 通过java访问MongoDB
实验环境:MongoDB 3.4.4 eclipse1.下载驱动包Central Repository: org/mongodb (maven.org)
2021-05-30 23:04:11 922
原创 flink笔记16 flink table windows(Group Windows/Over Windows)
1.介绍时间语义,要配合窗口操作才能发挥作用。最主要的用途就是开窗口、根据时间段做计算在Table API和SQL中,主要有两种窗口:Group Windows 和 Over WindowsGroup Windows 根据时间或行计数间隔将组行聚合成有限的组,并对每个组计算一次聚合函数 Over Windows窗口内聚合为每个输入行在其相邻行范围内计算一个聚合2.Group Windows(分组窗口)注意点:Group Windows 是使用 .window子句定义的,并且必须由a.
2021-05-27 20:45:11 898
原创 flink笔记15 flink table表的时间属性
时间属性介绍像窗口(在 Table API和 SQL)这种基于时间的操作,需要有时间信息。因此,Table API 中的表就需要提供逻辑时间属性来表示时间,以及支持时间相关的操作。每种类型的表都可以有时间属性,可以在用CREATE TABLE DDL创建表的时候指定、也可以在DataStream中指定、也可以在定义TableSource时指定。一旦时间属性定义好,它就可以像普通列一样使用,也可以在时间相关的操作中使用。时间属性可以像普通的时间戳的列一样被使用和计算。一旦时间属性被用在了计算中..
2021-05-27 10:12:32 954
原创 flink笔记14 动态表(Dynamic Tables)
动态表概念在流上定义表连续查询更新和追加查询表到流的转换概念动态表是 Flink 的支持流数据的 Table API 和 SQL 的核心概念。与表示批处理数据的静态表不同,动态表是随时间变化的。可以像查询静态批处理表一样查询它们。查询动态表将生成一个连续查询。一个连续查询永远不会终止,结果会生成一个动态表。查询不断更新其(动态)结果表,以反映其(动态)输入表上的更改。本质上,动态表上的连续查询非常类似于定义物化视图的查询。注意:连续查询的结果在语义上总是等价于...
2021-05-26 22:24:46 1142
原创 flink笔记10 [实验]体验ProcessingTime和指定EventTime下的区别
体验ProcessingTime和指定EventTime下的区别实验数据实验代码实验结果实验分析实验数据sensor_1,1619492107,36.2sensor_1,1619492108,36.0sensor_1,1619492109,36.5sensor_1,1619492110,34.3sensor_1,1619492111,34.3sensor_1,1619492112,34.3sensor_1,1619492113,34.3sensor_1,1619.
2021-05-26 17:20:23 605
原创 flink笔记9 [实验]体验窗口开启时间和关闭时间(Eventtime)
实验数据sensor_1,1619492107,36.2sensor_1,1619492108,36.0sensor_1,1619492109,36.5sensor_1,1619492110,34.3sensor_1,1619492111,34.3sensor_1,1619492112,34.3sensor_1,1619492113,34.3sensor_1,1619492114,34.3sensor_1,1619492115,34.3sensor_1,1619492116,34.3
2021-05-26 17:04:15 730 3
原创 MongoDB笔记(十一) MongoDB伪分布式启动与测试
mongod -port 27017 -dbpath "d:\NoSQL\MongoDB\data\db" -logpath "d:\NoSQL\MongoDB\data\mongodb.log" -replSet rs0mongod -port 27018 -dbpath "d:\NoSQL\MongoDB1\data\db" -logpath "d:\NoSQL\MongoDB1\data\mongodb.log" -replSet rs0mongod -port 27019 -dbpat.
2021-05-21 16:29:43 627 1
原创 MongoDB 笔记(十) MongoDB伪分布配置
我的MongoDB的bin目录D:\soft\NoSQL\MongoDB\data\bin1.在NoSQL文件夹下再新建两个文件夹(NoSQL1、NoSQL2)2.在新建的NoSQL1和NoSQL2文件夹下 新建data文件夹,在data文件夹下新建两个文件夹(db、log)3.将MongoDB下的bin目录复制到MongoDB1和MongoDB下的data文件夹下4.用管理员打开命令提示符并输入以下命令(先切换到MongoDB的bin目录下)mongod -...
2021-05-14 20:31:25 1865 3
原创 flink笔记13 [Table API和SQL] 查询表、输出表、查看执行计划
1.转换查询Flink给我们提供了两种查询方式:Table API和 Flink SQL
2021-05-11 23:37:00 2394
原创 flink笔记12 [Table API和SQL] 创建表环境、创建表
1.创建表环境创建表环境,需要将flink流处理的执行环境传入val tableEnv = StreamTableEnvironment.create(env) // 最简单的创建表环境TableEnvironment是flink中集成Table API和SQL的核心概念,所有对于表的操作都基于TableEnvironment其他创建方法:// 基于老版本planner的流处理val settings = EnvironmentSettings....
2021-05-11 13:23:39 3768
原创 flink笔记11 Flink Table API和SQL的简单实例
Apache Flink有两个关系应用编程接口——the Table API and SQL,用于统一的流和批处理The Table API and SQL相互无缝集成,与Flink的DataStream API无缝集成1.Table API & SQL简介Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改flink根据使用的便捷性提供了三种API,自下而上是:Table API & SQL特..
2021-05-10 22:50:08 493
原创 MongoDB笔记(九) 集合操作
集合操作1.创建集合2.查看当前数据库所有集合3.删除集合1.创建集合语法:db.createCollection(name,option)option: -capped 设置值为false即无上限 true表示设置上限 -size 当capped为true时,设定此参数;表示上限大小,单位:字节;当文档达到上限,会将之前的数据覆盖实例:> db.createCollection("test"){ "ok" : 1 }2.查看当前数据库所
2021-05-08 12:59:36 225
原创 MongoDB笔记(八) 聚合(详细)
三种聚合的方法1.管道聚合方法2.map-reduce方法3.单一目标聚合方法聚合操作主要用于处理数据并返回计算结果。聚合操作将来自多个文档的值组合在一起,按条件分组后,再进行一系列操作(如求和、平均值、最大值、最小值)以返回单个结果。以下例子所使用的集合里面的文档> db.sale_detail.insert([... {goodsid:"1001",amount:2,price:10.2,ok:false},... {goodsid:"1001",amount:3,p
2021-05-08 09:46:36 911
原创 pyspark:rdd.foreach(print)报错NameError
报错原因:应该是pyspark低里自带一个Python2版本,可以通升级pyspark自带的python版本来解决还有一个表现就是:当使用rdd.collect()时,会出现不正常的u字母[(u'DataStructure', 5), (u'Music', 1), (u'Algorithm', 5), (u'DataBase', 5)]如何查看是不是这个错误:在启动的时候可以看到你的python版本上图的python版本就是python 2.7.5解决方法:1.安装pytho
2021-05-04 22:11:32 3050 3
原创 MongoDB笔记(七) 索引(详细)
1.单一字段索引命令:db.collection_name.createIndex({<key>:<n>})key:键名n=1:表示升序n=-1:表示降序实例:> db.books.insertMany(... [... {name:"<a cat story>",price:20,color:"red"},... {name:"<crying birds story>",price:20,color:"green"},
2021-05-01 22:13:03 304
原创 MongoDB笔记(六) 删除操作(详细)
目录1.删除全部2.删除符合条件3.删除满足条件的单条文档4.delete1.删除全部命令:> db.collection.remove({})实例:> db.test.insertMany(... [... {item:"铅笔",price:2},... {item:"钢笔",price:60}... ]... ){ "acknowledged" : true, "insertedIds" : [ .
2021-05-01 21:14:53 1560 1
原创 flink笔记8 WaterMark
WaterMarkWaterMark介绍WaterMark的特点WaterMark设定方法WaterMark介绍流处理从事件产生,到流经 source,再到 operator,中间是有一个过程和时间的,由于网络、分布式等原因,可能导致乱序或迟到的产生。所谓乱序,就是指 Flink 接收到的事件的先后顺序不是严格按照事件的 Event Time 顺序排列的。Watermark 是用于处理乱序事件的,通常用Watermark 机制结合 window 来正确处理乱序事件;Water
2021-04-26 21:04:26 251
原创 HIVE的DDL DML随笔
DDL数据库的增删改查 注释 显示数据库 show databases; *:占位符,占多位,%:占位符,占一位 show databases like 'big*'; 显示数据库信息 desc databasedatabase_name; desc:describe desc database extendeddatabase_name; 创建数据库 create databasedatabase_name; 数据库在 HDFS 上的默认...
2021-04-21 19:19:29 127
原创 Spark生态系统和运行架构
Spark是一个可应用于大规模数据处理的快速、通用引擎,spark提供了内存计算和基于DAG的任务调度机制。Spark最大的特点就是将计算数据、中间结果都存储在内存中,因此更适合于迭代运算。1.Spark 生态系统Spark 生态圈Spark设计遵循”一个软件栈满足不同应用场景“的理念,逐渐形成了一整套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即时查询(Spark SQL)、流计算(Spark Streaming)、机器学习(MLlib)和图计算(GraphX)等。Spark还可以.
2021-04-18 15:56:43 2457
原创 MongoDB笔记(五) 更新操作(详细)
创建集合(插入文档):> db.order_test.insert(... {title:"商品购物单1",... amount:35,... detail:[{name:"苹果",price:22},... {name:"面粉",price:79}]... })WriteResult({ "nInserted" : 1 })> db.order_test.find().pretty(){ "_id" : ObjectId("60795de10f65fbc0
2021-04-17 13:45:01 582
原创 flink笔记7 Flink时间语义和Window
Flink的三种时间语义事件生成时间 Event time :事件自身的时间,一般就是数据本身携带的时间 事件接入时间 Ingestion time :事件进入Flink的时间,在数据源操作处(进入 Flink source 时),每个事件将进入 Flink 时当时的时间作为时间戳 事件处理时间 Processing time :是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time例如,一条日志进入Flink 的时间为2017-11-1..
2021-04-15 13:10:43 351
原创 可视化随笔 阶梯图
fig.ax=plt.subplots(figsize=(10,4))1.plt、ax区别如果将Matplotlib绘图和我们平常画画相类比,可以把Figure想象成一张纸(一般被称之为画布),Axes代表的则是纸中的一片区域(当然可以有多个区域,这是后续要说到的subplots)。两种绘图方式区别plt.plot():先生成了一个Figure画布,然后在这个画布上隐式生成一个画图区域进行画图。ax.plot():第二种方式同时生成了Figure和axes两个对象,然后用ax对象.
2021-04-13 12:45:49 451 4
原创 可视化随笔 绘图入门pyplot
plt.subplots()是一个函数,返回一个包含figure和axes对象的元组。因此,使用fig,ax = plt.subplots()将元组分解为fig和ax两个变量。参考:plt.subplots()的使用【Python】 【绘图】plt.figure()的使用...
2021-04-13 11:02:28 165
原创 MongoDB笔记(四) 查询操作(详细)
查询操作(详细)1.查询集合所有文档2.等值条件查询3.嵌套文档查询4.数组查询5.查找null值字段,查找指定无值字段6.或条件查找7.查询操作符1.查询集合所有文档db.goodstest.find() //goodstest:collection namedb.goodstest.find().pretty()> db.goodstest.find(){ "_id" : ObjectId("60744b754a2bf7c456867
2021-04-12 22:57:48 653
原创 Coding创建项目,并用git把本地上传到Coding
1.在coding上创建项目(之前先注册登录)注意:注册coding时使用邮箱,①创建项目:如果是第一次的话可能出现下图,点击完成创建引导项目,再新建一个项目即可②创建代码仓库:点击下图复制网址(git clone 时使用)2.克隆云端仓库到本地git clone https://e.coding.net/YY-xiaolei/home/Home.git //后面这个网址复制自己的 若出现下图这种报错则到...
2021-04-12 14:29:49 2932 1
原创 flink笔记6 DataStream API(二)Transform、sink介绍和使用
3.Transform(1) 简单转换算子① Map:输入一个元素,然后返回一个元素,中间可以做一些清洗转换等操作object Transform1 { def main(args: Array[String]): Unit = { val inputdata = List(1,2,3,4,5) val resultdata = inputdata.map(_+10) print(resultdata) }}// 结果: List(11, 1.
2021-04-12 09:39:41 417
原创 flink笔记5 DataStream API(一)Environment、Source介绍和使用
一.Environment1. StreamExecutionEnvironment调用静态方法getExecutionEnvironment(),得到一个执行环境,用于执行我们的程序。val env = StreamExecutionEnvironment.getExecutionEnvironmentgetExecutionEnvironment会根据查询运行的方式决定返回什么样的运行环境,是最常用的一种创建执行环境的方式。2. 创建本地执行环境:val env = Stream
2021-04-11 15:11:02 828
原创 MongoDB笔记(一)简单介绍
1.NoSQLNoSQL(Not only SQL):主体符合非关系型、分布式、开放源码和具有横向扩展能力的下一代数据库。非关系型数据库统称为NoSQL数据库。主要用于互联网上数据的存储。
2021-04-09 12:35:25 255
原创 MongoDB笔记(二) MongoDB数据库操作
MongoDB数据库操作1.查看所有数据库2.创建数据库3.查看当前正在使用的数据库4.统计数据库信息5.删除当前使用的数据库6.查看集合7.查看当前db版本MongoDB数据库初始安装完成后,默认的数据库是test。如果没有创建新的数据库,集合将存储在test数据库中。如果自定义数据库没有插入记录,则用户查看数据库时是不会显示的,只有在插入数据的数据库才会显示相应的信息。1.查看所有数据库使用show命令查看当前数据库列表命令:>show db.
2021-04-09 11:52:56 430
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人