自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(165)
  • 收藏
  • 关注

原创 Typora:This beta version of Typora is expired, please download and install a newer

win+R调用运行窗口,输入regedit命令进入注册表界面。在用户和administrator用户权限中选择拒绝。保存应用,重新打开Typora,发现可以继续用了。在上图红框上右键选择权限菜单。

2023-10-10 15:36:27 189 1

原创 【大数据之路12】Spark 执行引擎 SparkCore

​ Spark 是一种快速、通用、可扩展的大数据分析引擎,Spark 生态系统是一个包含多个子项目的集合,其中包含SparkSQLGraphXMLlib等子项目,Spark 是基于内存的大数据并行计算框架。Spark 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将 Spark 部署在大量廉价硬件之上,形成集群。​RDD(Resident Distributed dataset)是弹性分布式数据集,是 Spark 最基本的数据抽象,它代表一个。

2023-07-13 19:03:42 521

原创 could not be determined automatically, due to type erasure. You can give type information hints by u

解决方法二:既然 JDK 无法自动转换,那就显式的指定对象的内部结构,暴露给 JDK。一个 flatMap 方法去写。解决方法一:按照正常方式,

2023-07-06 19:17:00 203

原创 No new data sinks have been defined since the last execution. The last execution refers to the lates

读取文件进行单词操作,属于批处理,最后。用于流式处理,在这没必要重复写了。已经触发程序执行了,

2023-07-05 21:01:42 224

原创 【大数据之路11】多范式编程语言 Scala

​ Scala(Scalable Language 的简称)是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行于 Java 平台( Java 虚拟机),并兼容现有的 Java 程序。​ Scala 语言是一种能够运行于 JVM 和 .Net 平台之上的通用编程语言,即可用于大规模应用程序开发,也可用于脚本编程。​ 大数据技术组件 Hadoop、Hive、HBase 底层源码用 Java 编写,Kafka、Spark、Flink 底层用 Scala 编写。

2023-06-29 09:34:50 636 5

原创 【大数据之路10】分布式消息队列系统 Kafka

案例:客户在 12306 网站或电商网站购买商品,会收到购买结果信息生产者(12306 或电商网站)生产消息,将消息发送给消息系统(一个大大的缓存),消息系统经过处理,以短信、邮件或其它方式将信息发送给消费者(客户)生产者(Producer):产生消息消费者(Consumer):处理或消费消息消息系统图解为什么会有消息系统?解耦:允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束冗余:消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。

2023-06-28 08:42:16 1446

原创 乱七八糟知识点

一个搜索引擎由 搜索器、索引器、检索器、用户接口 四部分组成。

2023-06-21 17:25:32 1723

原创 【大数据之路9】任务调度工具 Azkaban

1. 一个完整的数据分析系统通常都是由大量任务单元组成:shell 脚本程序、Java 程序、MapReduce 程序、Hive 脚本等2. 各任务单元之间存在的时间先后及前后依赖关系3 为了很好的组织起这样复杂的执行计划,需要一个工作流调度系统来调度执行通过 Hadoop 先将原始数据同步到 HDFS上借助 MapReduce 计算框架对原始数据进行清洗转换,生成的数据以分区表的形式存储到多张 Hive 表中需要对 Hive 中多个表的数据进行处理,得到一个明细数据 Hive 大表。

2023-06-14 12:15:52 732

原创 【大数据之路8】数据迁移工具 Sqoop 的使用

Sqoop:数据迁入迁出的工具,也是一个命令行工具迁入迁出的对象:RDBMS 和 Hadoop 生态之间,即关系型数据库和大数据存储系统之间的数据传输Sqoop 操作:迁入(import)数据RDBMS→Sqoop→Hadoop。MySQL、Oracle 等关系型数据库的数据迁入到大数据存储系统 Hadoop 的hdfs、Hive、HBase 中迁出(export)数据Hadoop→Sqoop→RDBMS。

2023-06-14 12:05:34 846

原创 【大数据之路7】数据采集工具 Flume 的使用

Apache Flume 是一个分布式的、可靠、高可用的海量日志采集、聚合和传输的系统,支持在系统中定制各类的数据发送方,用于采集数据,同时 Flume 提供对数据的简单处理,并写到各种数据接收方的能力。Flume 和 Sqoop 同属于数据采集系统组件,但Sqoop ⽤来采集关系型数据库数据,⽽ Flume ⽤来采集流动型数据。Flume 名字来源于原始的近乎实战的⽇志数据采集⼯具,现被⼴泛⽤于任何流事件数据的采集,它⽀持从很多数据源聚合数据到 HDFS。

2023-06-14 11:52:56 1482

原创 【大数据之路6】分布式 NoSQL 数据库 HBase

关系型数据库,比如 MySQL、Oracle、SqlServer、DB2、Derby(小型 SQL 数据库)实时查询、操作数据存储的数据都是一个行级别的记录获取数据:SQL 语句MySQL 底层存储是以文件的形式非关系型数据库,比如 HBase、Redis(kv 形式,可存字符、字典、集合、映射等)、MongoDB(文档形式,最大优势可存文件)满足大数据场景下实时查询的业务需求NoSQL 存储的数据都是 key-value 类型的数据get(key)得到对应的数据。

2023-06-09 14:32:14 872

原创 【大数据之路5-3】离线数据仓库(Hive 搭建)

数据仓库(Data Warehouse),简写为DW或DWH,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业提供指导业务流程改进、监视时间、成本、质量及控制。

2023-06-09 08:55:45 743

原创 【大数据之路5-2】Hive 全调优

​ Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job 或 I/O 过多、MapReduce 分配不合理等。对 Hive 的调优既包含 Hive 的建表设计方面,也包含对 Hive HQL 语句本身的优化,还包含 Hive 配置参数和底层引擎 MapReduce 方面的调整。Hive 的建表设计层面HQL 语法和运行参数层面Hive 架构层面总之,

2023-06-09 08:30:17 777

原创 【大数据之路5-1】数据仓库工具 Hive

大数据:历史数据,预测未来Hive 由 FaceBook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询 功能,底层数据存储在 HDFS 上。Hive 的本质是将 HQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便的使用 HQL 处理和计算 HDFS 上结构化的数据,适用于离线的批量数据计算。分条:基于 Hadoop:Hive 依赖于 HDFS 存储数据,Hive 将 HQL 转换成

2023-06-09 08:23:57 781

原创 【大数据之路4】分布式计算模型 MapReduce

map 并发 reduce 汇总MapReduce 是一个分布式的计算编程框架(或编程模型),属于一个半成品,并行计算框架。在一个完整的分布式计算任务代码编写过程中,对程序员来说,除了业务之外的所有代码都不写最好。封装通用代码,对业务代码提供编写规范。MapReduce 核心功能】:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。增加了计算任务调度的复杂性求和求最值都可以,但求平均值不能用。

2023-06-08 18:35:43 814

原创 【大数据之路3】分布式协调系统 Zookeeper

​ Zookeeper 是一个开放源码的分布式应用程序协调服务,是 Google 的 Chubby(分布式锁)一个开源的实现。它提供了简单原始的功能(ZNode 和监听机制),分布式应用可以基于它实现更高级的服务,比如分布式同步配置管理集群管理命名管理队列管理。它被设计为易于编程,使用文件系统目录树作为数据模型。服务端运行在 Java 上,提供 Java 和 C 客户端 API。

2023-06-08 18:26:59 645

原创 【大数据之路2】分布式文件系统 HDFS

HDFS 是大数据存储的基础,几乎所有的大数据分布式存储需求都会使用到。Node:地址和端口Last Contact:最近通讯时间(正常是 0/1/2 的间隔,若不正常则为最后一次的通讯时间)Admin State:管理员状态Capacity:HDFS 容量Used:已使用容量Non DFS Used:非 HDFS 使用容量Remaining:剩余容量Blocks:块容量Block pool used:块使用占比。

2023-06-08 18:15:19 1005

原创 【大数据之路1】Hadoop 入门

传统数据处理应用软件不足以处理(存储和计算)它们大而复杂的数据集针对海量数据的存储、计算容量大、种类多、速度快、价值高项目经理提出需求,例如统计日活、周活、月活、年度账单等大数据部门的大数据平台或系统,分析一些需求指标数据可视化。

2023-06-08 17:59:40 1142

原创 【大数据工具】Flume、Sqoop、Azkaban 安装

2、将安装文件上传到集群,最好上传到安装 hive、sqoop 的机器上,方便命令的执行,并最好统一存放在某个目录下,新建 azkaban 目录,用于存放 azkaban 运行程序。3、加入 MySQL 驱动包到 sqoop 的 lib 目录下。4、启动 Azkaban Executor 执行器。1、上传 azkaban 的三个包。5、验证是否安装成功。

2023-06-07 09:38:10 66

原创 【大数据工具】Flink集群搭建

1、下载 Flink 安装包并上传至服务器。

2023-06-07 09:25:15 1334

原创 【大数据工具】Spark 伪分布式、分布式集群搭建

安装前提:安装 Spark 前需要先安装好 JDK。

2023-06-07 09:19:55 716

原创 【大数据工具】Kafka伪分布式、分布式安装和Kafka-manager工具安装与使用

管理多个 Kafka 集群便捷的检查 Kafka 集群状态(topic,broker,备份分布情况,分区分布情况)选择要运行的副本基于当前分区状况进行可以选择 topic 配置并创建 topic(0.8.1.1 和 0.8.2 的配置不同)删除 topic(只支持 0.8.2 以上的版本并且要在 broker 配置中设置Topic list 会指明哪些 topic 被删除(0.8.2 以上版本使用)为已存在的 topic 增加分区为已存在的 topic 更新配置。

2023-06-07 09:14:25 2886

原创 【大数据工具】HBase 集群搭建与基本使用

(3)修改 regionservers(存放的 region server 的 hostname)(Hadoop2 和 Hadoop3 就一块启动了)(2)修改 hbase-site.xml。(1)修改 hbase-env.sh。使用 FileZilla 将。上传至 Hadoop0 的。,并重命名解压后的文件夹。(5)配置从节点环境变量。

2023-06-07 09:10:14 588

原创 【大数据工具】Hive 安装

hivedb2 表示:是之后初始化后,在MySQL里生成的元数据库的名字。配置连接器信息,设置 MySQL 作为元数据存储的位置。该 jar 包放置在 hive 的根路径下的。修改配置文件(目录下面没有,直接vim就可以了)注:安装 Hive 前要先安装好 MySQL。放到 hive 的根路径下的 lib 目录。一定要记得加入 MySQL 驱动包。至此 MySQL 安装成功。说明:安装到一个节点即可。将 MySQL 驱动包。安装完成,配置环境变量。说明:三台节点都安装。

2023-06-07 09:06:52 724

原创 【大数据工具】Zookeeper 分布式集群和伪分布式安装

说明:伪分布即在一台服务器上通过不同端口模拟出分布式集群的效果,分布式一般 3 台起,一主两从。说明:伪分布安装在了 Windows 开辟的虚拟机上,主机名为 bigdata。

2023-06-07 09:03:33 812

原创 【大数据之路】导读

Hadoop 架构:VMware 虚拟机 CentOS 7.9 3台,3台虚拟机防火墙关闭、selinux 关闭、互相 ssh 免密。hadoop0:2核 4G 75G,hadoop1 和 hadoop2 各为 1核 2G 50G。接下来,就让我们一起学习大数据的主流技术栈技术和项目实战吧,加油!主机:MacBookPro 4C16G,在本机。添加了三台虚拟机的域名解析。

2023-06-07 08:54:01 680

原创 2. 分布式文件系统 HDFS

HDFS 是大数据存储的基础,几乎所有的大数据分布式存储需求都会使用到。Node:地址和端口Last Contact:最近通讯时间(正常是 0/1/2 的间隔,若不正常则为最后一次的通讯时间)Admin State:管理员状态Capacity:HDFS 容量Used:已使用容量Non DFS Used:非 HDFS 使用容量Remaining:剩余容量Blocks:块容量Block pool used:块使用占比。

2023-06-07 08:53:44 1827

原创 1. Hadoop 入门

传统数据处理应用软件不足以处理(存储和计算)它们大而复杂的数据集针对海量数据的存储、计算容量大、种类多、速度快、价值高。

2023-06-07 08:42:33 847

原创 【一天一个小算法】012:图片整理

输入描述:一行,一个字符串,字符串中的每个字符表示一张Lily使用的图片。输出描述:Lily的所有图片按照从小到大的顺序输出。

2023-05-10 10:13:48 53 1

原创 【一天一个小算法】011:单词倒排

数据范围:字符串长度满足 1≤ n ≤10000。输入描述:输入一行,表示用来倒排的句子。对字符串中的所有单词进行倒排。输出描述:输出句子的倒排结果。

2023-05-10 10:13:07 46

原创 【一天一个小算法】010:字符串加解密

数据范围:输入的两个字符串长度满足 1≤ n ≤1000 ,保证输入的字符串都是只由大小写字母或者数字组成。对输入的字符串进行加解密,并输出。解密方法为加密的逆过程。

2023-05-10 10:12:22 150

原创 【一天一个小算法】008:字符串排序

规则 2 :同一个英文字母的大小写同时存在时,按照输入顺序排列。规则 1 :英文字母从 A 到 Z 排列,不区分大小写。数据范围:输入的字符串长度满足 1≤ n ≤1000。编写一个程序,将输入字符串中的字符按如下规则排序。规则 3 :非英文字母的其它字符保持原来的位置。输入描述:输入字符串。输出描述:输出字符串。

2023-05-10 10:10:44 60

原创 【一天一个小算法】009:查找兄弟单词

输出描述:第一行输出查找到x的兄弟单词的个数m 第二行输出查找到的按照字典顺序排序后的第k个兄弟单词,没有符合第k个的话则不用输出。先输入字典中单词的个数n,再输入n个单词作为字典单词。然后输入一个单词x 最后后输入一个整数k。定义一个单词的“兄弟单词”为:交换该单词字母顺序(注:可以交换任意次),而不添加、删除、修改原有的字母就能生成的单词。现在给定你 n 个单词,另外再给你一个单词 x ,让你寻找 x 的兄弟单词里,按字典序排列后的第 k 个单词是什么?兄弟单词要求和原来的单词不同。

2023-05-10 10:10:40 88

原创 【一天一个小算法】007:删除字符串中出现次数最少的字符

实现删除字符串中出现次数最少的字符,若出现次数最少的字符有多个,则把出现次数最少的字符都删除。输出删除这些单词后的字符串,字符串中其它字符保持原来的顺序。输入描述:字符串只包含小写英文字母, 不考虑非法输入,输入的字符串长度小于等于20个字节。数据范围:输入的字符串长度满足 1≤ n ≤20 ,保证输入的字符串中仅出现小写字母。输出描述:删除字符串中出现次数最少的字符后的字符串。

2023-05-10 10:09:39 117

原创 【一天一个小算法】006:汽水瓶

输入描述:输入文件最多包含 10 组测试数据,每个数据占一行,仅包含一个正整数 n( 1<=n<=100 ),表示小张手上的空汽水瓶数。n=0 表示输入结束,你的程序不应当处理这一行。输出描述:对于每组测试数据,输出一行,表示最多可以喝的汽水瓶数。如果一瓶也喝不到,输出0。某商店规定:三个空汽水瓶可以换一瓶汽水,允许向老板借空汽水瓶(但是必须要归还)输入的 0 表示输入结束,并不用输出结果。小张手上有n个空汽水瓶,她想知道自己最多可以喝到多少瓶汽水。数据范围:输入的正整数满足 1≤ n ≤100。

2023-05-10 10:07:26 70

原创 【一天一个小算法】005:简单密码

现在有一种密码变换算法。九键手机键盘上的数字与字母的对应: 1–1, abc–2, def–3, ghi–4, jkl–5, mno–6, pqrs–7, tuv–8 wxyz–9, 0–0,把密码中出现的小写字母都变成九键键盘对应的数字,如:a 变成 2,x 变成 9,而密码中出现的大写字母则变成小写之后往后移一位,如:X ,先变成小写,再往后移一位,变成了 y ,例外:Z 往后移是 a。数字和其它的符号都不做变换。输入描述:输入一组密码,长度不超过100个字符。输出描述:输出密码变换后的字符串。

2023-05-09 13:25:37 46

原创 【一天一个小算法】004:密码验证合格程序

不能有长度大于2的包含公共元素的子串重复 (注:其他符号不含空格或换行)数据范围:输入的字符串长度满足 1≤ n ≤100。包括大小写字母.数字.其它符号,以上四种至少三种。输出描述:如果符合要求输出:OK,否则输出NG。输入描述:一组字符串。

2023-05-09 13:23:58 39

原创 【一天一个小算法】003:质数因子

输出描述:按照从小到大的顺序输出它的所有质数的因子,以空格隔开。输入描述:输入一个整数。

2023-05-09 13:22:23 22

原创 【一天一个小算法】002:进制转换

输出描述:输出该数值的十进制字符串。不同组的测试用例用 \n 隔开。写出一个程序,接受一个十六进制的数,输出该数值的十进制表示。数据范围:保证结果在 1≤ n ≤ 2。输入描述:输入一个十六进制的数值字符串。

2023-05-09 13:21:58 42

原创 【一天一个小算法】001:字符串分割

输入描述:连续输入字符串(每个字符串长度小于等于100)输出描述:依次输出所有分割后的长度为8的新字符串。

2023-05-09 13:18:40 175

jdk1.8哈哈哈哈哈

jdk1.8哈哈哈哈哈

2024-03-27

Python3.6.4

Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4Python3.6.4

2023-08-14

typora MaroDown 软件

typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDown 软件typora MaroDow

2023-08-11

Wikidata数据转换工具

Wikidata数据转换工具,该文件是使用 Python 方式将 Wikidata 官网 https://www.wikidata.org/wiki/Wikidata:Database_download/ 下载的数据包由 bz2 转为 json 格式,通过 WikiExtractor -o [output] --process 2 -b 1024K --json [input] 参数进行转换,实测 Mac 转换全程无压力! *以下为凑字数的哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈 参数说明: -o:该参数表示输出的目录 –process:表示进程数 -b:表示生成的单个文件的大小(默认值为1M) –json:表示生成文件的格式,不使用该参数的话,生成的文件格式是xml

2023-05-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除