耀芽芽抱-CSDN博客

原创 Oracle 11g安装过程

本文仅用于记录亲自安装oracle的过程。

2023-11-29 22:12:57 2761

原创【备忘录】软件记录

Anaconda 虚拟环境创建Python环境。Jupyter Notebook 交互式开发环境。Spyder Python程序编辑。

2023-11-27 20:00:07 507

主键：是表中的某个属性组(一个或多个)，唯一确定一行；数据模型应满足三方面要求：能比较真实地模拟现实世界；MySQL、Oracle都是数据库管理系统(软件)，可以在里面创建数据库。数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合。逻辑模型为概念模型中的内容设计存储字段名、字段类型等等。对关系的描述：关系名(属性1，属性2，……用途：科学组织和存储数据、高效地获取和维护数据。数据(Data)是数据库存储的基本对象。数据模型是对现实世界数据特征的抽象。客观对象的抽象过程---两步抽象。

2023-11-21 20:24:12 256 1

原创 linux 下mysql 数据库设置中文

问题产生情况：使用sqoop将hive数据库的数据导出到hinux的mysql，在navicat上发现数据库里的中文全部变成了？3、进入 etc目录下打开 my.cnf 文件，对 my.cnf 进行修改，修改内容如下。4、修改完成之后进行保存，然后重启 mysql 服务。2.在网上教程的位置找不到文件/etc/my.cnf。1、先查看mysql原本的拉丁字符集。在[mysqld]最下面加入下面几句话。5.再次查看字符集是否修改。在配置文件里加这样几句话。mysql 启动命令。

2023-03-30 10:43:43 652

原创 Linux中文显示：解决Windows传到linux文件中文乱码

问题描述：博主准备将还有中文的data文件从windows传到linux进行大数据分析，但是发现从windows传到linux之后，中文乱码。

2022-04-19 22:33:54 3111

原创 Spark 练习测试题(答案仅供参考)

选择题1. spark 的四大组件下面哪个不是 (D)A.Spark Streaming B MLlib C Graph X D Spark R2. Hadoop框架的缺陷有 (ABC)A.表达能力有限，MR编程框架的限制B.过多的磁盘操作，缺乏对分布式内存的支持C.无法高效低支持迭代式计算D.海量的数据存储3. 与hadoop相比，Spark主要有以下哪些优点（ABCD）A. 提供多种数据集操作类型而不仅限于MapReduceB. 数据集中式计算而...

2021-07-05 23:51:57 18500 5

原创可视化随笔奥运会数据集实验心得

数据集介绍运动员赛事数据集 athlete_events.csv题目：参赛者男女比例组成情况（用groupby函数根据年龄分组计数，并用pyecharts绘制饼图）

2021-05-30 23:42:07 529

原创 MongoDB笔记(十二) 通过java访问MongoDB

实验环境：MongoDB 3.4.4 eclipse1.下载驱动包Central Repository: org/mongodb (maven.org)

2021-05-30 23:04:11 922

原创 flink笔记16 flink table windows(Group Windows/Over Windows)

1.介绍时间语义，要配合窗口操作才能发挥作用。最主要的用途就是开窗口、根据时间段做计算在Table API和SQL中，主要有两种窗口：Group Windows 和 Over WindowsGroup Windows 根据时间或行计数间隔将组行聚合成有限的组，并对每个组计算一次聚合函数 Over Windows窗口内聚合为每个输入行在其相邻行范围内计算一个聚合2.Group Windows(分组窗口)注意点：Group Windows 是使用 .window子句定义的，并且必须由a.

2021-05-27 20:45:11 898

原创 flink笔记15 flink table表的时间属性

时间属性介绍像窗口（在 Table API和 SQL）这种基于时间的操作，需要有时间信息。因此，Table API 中的表就需要提供逻辑时间属性来表示时间，以及支持时间相关的操作。每种类型的表都可以有时间属性，可以在用CREATE TABLE DDL创建表的时候指定、也可以在DataStream中指定、也可以在定义TableSource时指定。一旦时间属性定义好，它就可以像普通列一样使用，也可以在时间相关的操作中使用。时间属性可以像普通的时间戳的列一样被使用和计算。一旦时间属性被用在了计算中..

2021-05-27 10:12:32 954

原创 flink笔记14 动态表(Dynamic Tables)

动态表概念在流上定义表连续查询更新和追加查询表到流的转换概念动态表是 Flink 的支持流数据的 Table API 和 SQL 的核心概念。与表示批处理数据的静态表不同，动态表是随时间变化的。可以像查询静态批处理表一样查询它们。查询动态表将生成一个连续查询。一个连续查询永远不会终止，结果会生成一个动态表。查询不断更新其(动态)结果表，以反映其(动态)输入表上的更改。本质上，动态表上的连续查询非常类似于定义物化视图的查询。注意：连续查询的结果在语义上总是等价于...

2021-05-26 22:24:46 1142

原创 flink笔记10 [实验]体验ProcessingTime和指定EventTime下的区别

体验ProcessingTime和指定EventTime下的区别实验数据实验代码实验结果实验分析实验数据sensor_1,1619492107,36.2sensor_1,1619492108,36.0sensor_1,1619492109,36.5sensor_1,1619492110,34.3sensor_1,1619492111,34.3sensor_1,1619492112,34.3sensor_1,1619492113,34.3sensor_1,1619.

2021-05-26 17:20:23 605

原创 flink笔记9 [实验]体验窗口开启时间和关闭时间(Eventtime)

实验数据sensor_1,1619492107,36.2sensor_1,1619492108,36.0sensor_1,1619492109,36.5sensor_1,1619492110,34.3sensor_1,1619492111,34.3sensor_1,1619492112,34.3sensor_1,1619492113,34.3sensor_1,1619492114,34.3sensor_1,1619492115,34.3sensor_1,1619492116,34.3

2021-05-26 17:04:15 730 3

原创 MongoDB笔记(十一) MongoDB伪分布式启动与测试

mongod -port 27017 -dbpath "d:\NoSQL\MongoDB\data\db" -logpath "d:\NoSQL\MongoDB\data\mongodb.log" -replSet rs0mongod -port 27018 -dbpath "d:\NoSQL\MongoDB1\data\db" -logpath "d:\NoSQL\MongoDB1\data\mongodb.log" -replSet rs0mongod -port 27019 -dbpat.

2021-05-21 16:29:43 627 1

原创 MongoDB 笔记(十) MongoDB伪分布配置

我的MongoDB的bin目录D:\soft\NoSQL\MongoDB\data\bin1.在NoSQL文件夹下再新建两个文件夹(NoSQL1、NoSQL2)2.在新建的NoSQL1和NoSQL2文件夹下新建data文件夹，在data文件夹下新建两个文件夹(db、log)3.将MongoDB下的bin目录复制到MongoDB1和MongoDB下的data文件夹下4.用管理员打开命令提示符并输入以下命令(先切换到MongoDB的bin目录下)mongod -...

2021-05-14 20:31:25 1865 3

原创 flink笔记13 [Table API和SQL] 查询表、输出表、查看执行计划

1.转换查询Flink给我们提供了两种查询方式：Table API和 Flink SQL

2021-05-11 23:37:00 2394

原创 flink笔记12 [Table API和SQL] 创建表环境、创建表

1.创建表环境创建表环境，需要将flink流处理的执行环境传入val tableEnv = StreamTableEnvironment.create(env) // 最简单的创建表环境TableEnvironment是flink中集成Table API和SQL的核心概念，所有对于表的操作都基于TableEnvironment其他创建方法：// 基于老版本planner的流处理val settings = EnvironmentSettings....

2021-05-11 13:23:39 3768

原创 flink笔记11 Flink Table API和SQL的简单实例

Apache Flink有两个关系应用编程接口——the Table API and SQL，用于统一的流和批处理The Table API and SQL相互无缝集成，与Flink的DataStream API无缝集成1.Table API & SQL简介Table API是流处理和批处理通用的关系型API，Table API可以基于流输入或者批输入来运行而不需要进行任何修改flink根据使用的便捷性提供了三种API，自下而上是：Table API & SQL特..

2021-05-10 22:50:08 493

原创 MongoDB笔记(九) 集合操作

集合操作1.创建集合2.查看当前数据库所有集合3.删除集合1.创建集合语法：db.createCollection(name,option)option: -capped 设置值为false即无上限 true表示设置上限 -size 当capped为true时，设定此参数;表示上限大小，单位:字节;当文档达到上限，会将之前的数据覆盖实例：> db.createCollection("test"){ "ok" : 1 }2.查看当前数据库所

2021-05-08 12:59:36 225

原创 MongoDB笔记(八) 聚合(详细)

三种聚合的方法1.管道聚合方法2.map-reduce方法3.单一目标聚合方法聚合操作主要用于处理数据并返回计算结果。聚合操作将来自多个文档的值组合在一起，按条件分组后，再进行一系列操作(如求和、平均值、最大值、最小值)以返回单个结果。以下例子所使用的集合里面的文档> db.sale_detail.insert([... {goodsid:"1001",amount:2,price:10.2,ok:false},... {goodsid:"1001",amount:3,p

2021-05-08 09:46:36 911

原创 pyspark:rdd.foreach(print)报错NameError

报错原因：应该是pyspark低里自带一个Python2版本，可以通升级pyspark自带的python版本来解决还有一个表现就是：当使用rdd.collect()时，会出现不正常的u字母[(u'DataStructure', 5), (u'Music', 1), (u'Algorithm', 5), (u'DataBase', 5)]如何查看是不是这个错误：在启动的时候可以看到你的python版本上图的python版本就是python 2.7.5解决方法：1.安装pytho

2021-05-04 22:11:32 3050 3

原创 MongoDB笔记(七) 索引(详细)

1.单一字段索引命令：db.collection_name.createIndex({<key>:<n>})key:键名n=1:表示升序n=-1:表示降序实例：> db.books.insertMany(... [... {name:"<a cat story>",price:20,color:"red"},... {name:"<crying birds story>",price:20,color:"green"},

2021-05-01 22:13:03 304

原创 MongoDB笔记(六) 删除操作(详细)

目录1.删除全部2.删除符合条件3.删除满足条件的单条文档4.delete1.删除全部命令：> db.collection.remove({})实例：> db.test.insertMany(... [... {item:"铅笔",price:2},... {item:"钢笔",price:60}... ]... ){ "acknowledged" : true, "insertedIds" : [ .

2021-05-01 21:14:53 1560 1

原创 flink笔记8 WaterMark

WaterMarkWaterMark介绍WaterMark的特点WaterMark设定方法WaterMark介绍流处理从事件产生，到流经 source，再到 operator，中间是有一个过程和时间的，由于网络、分布式等原因，可能导致乱序或迟到的产生。所谓乱序，就是指 Flink 接收到的事件的先后顺序不是严格按照事件的 Event Time 顺序排列的。Watermark 是用于处理乱序事件的，通常用Watermark 机制结合 window 来正确处理乱序事件；Water

2021-04-26 21:04:26 251

原创 HIVE的DDL DML随笔

DDL数据库的增删改查注释显示数据库 show databases; *:占位符,占多位,%:占位符，占一位 show databases like 'big*'; 显示数据库信息 desc databasedatabase_name; desc:describe desc database extendeddatabase_name; 创建数据库 create databasedatabase_name; 数据库在 HDFS 上的默认...

2021-04-21 19:19:29 127

原创 Spark生态系统和运行架构

Spark是一个可应用于大规模数据处理的快速、通用引擎，spark提供了内存计算和基于DAG的任务调度机制。Spark最大的特点就是将计算数据、中间结果都存储在内存中，因此更适合于迭代运算。1.Spark 生态系统Spark 生态圈Spark设计遵循”一个软件栈满足不同应用场景“的理念，逐渐形成了一整套完整的生态系统，既能够提供内存计算框架，也可以支持SQL即时查询(Spark SQL)、流计算(Spark Streaming)、机器学习(MLlib)和图计算(GraphX)等。Spark还可以.

2021-04-18 15:56:43 2457

大数据培训心得.docx

大数据练习题.docx

空空如也