自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

书生的技术分享

分享大数据开发,java,python等相关技术博客

  • 博客(74)
  • 收藏
  • 关注

原创 【FineReport的详细使用教程】

FineReport报表软件是一款纯Java编写的,集数据展示(报表)和数据录入(表单)功能于一身的企业级Web报表工具,它专业、简捷、灵活的特点和无码理念,仅需简单的拖拽操作便可以设计复杂的中国式报表,搭建数据决策分析系统。FineReport旨在帮助用户轻松构建灵活的数据分析和报表系统,通过表格、图表等形式动态展示数据,辅助企业进行数据分析和管理决策。它大大缩短了项目周期,降低了实施成本,有效解决了企业信息孤岛问题,使数据真正产生其应用价值。

2024-07-13 21:22:12 914 1

原创 【电商指标详解】

电商行业中常见指标的详解!存在的原因和作用!!

2024-07-03 21:33:49 585

原创 【数据分析思维--史上最全最牛逼】

数据分析的思维!怎么提好我们对于业务的判断是非常重要的!!!

2024-07-03 20:39:14 501

原创 【一篇文章带你搞懂--拉链表!!!拉链表的原理是什么!】

拉链表是针对数据仓库设计中表存储数据的方式而定义的一种数据模型,主要用于记录数据变更历史。定义:拉链表是一种用于记录数据变更历史的表结构,它记录了事物从开始到当前状态的所有变化信息。通过记录数据的创建时间、更新时间等字段,可以方便地查询数据变更历史。结构特点:拉链表中的每个记录通常包含字段如创建时间(create_time)、更新时间(update_time)、数据本身(如order_id、user_id等)以及可能的操作者信息等。

2024-07-01 17:29:38 925

原创 【Hive中常见的优化手段----数据采集!Join 优化!Hive索引!数据倾斜!mapreduce本地模式!map和reduce数量调整!】

Hive中常见的优化手段----索引的定义:关系型数据库中的索引:在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。一般是建立在主键上的。关系型数据库中的索引:hive中的索引功能是有限的,hive中没有关系数据库中主键的概念,但是还是可以对某一些字段建立索引。Hive索引的目标是提高对表的某些列进行查询查找的速度。

2024-06-27 22:44:53 1706

原创 【大数据离线项目五:什么是维度?什么是指标?指标有哪几种分类?电商的业务中有几种需求呢?我们如何把这些需求通过数仓的层级完全展示出来?跟随这篇文章解决心底的疑问!!!】

什么是维度?什么是指标?指标有哪几种分类?维度定义:维度是度量的环境,用来反映业务的一类属性。这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(包括国家、地区、省、城市等)、时间维度(包括年、季、月、周、日等),商品的种类也是一个维度。特点:维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。维度所包含的表示维度的列,称为维度属性。

2024-06-25 22:15:42 753

原创 【大数据离线项目四:什么是海豚调度?怎么使用可以将海豚调度应用到我们的大数据项目开发中?】

Apache DolphinScheduler(海豚调度)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。 解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式

2024-06-23 20:47:59 829

原创 【大数据离线项目三:将HIve数仓中的dim进行拉宽聚合处理,PostgreSQL的使用,以及怎么将数据导出到PostgreSQL数据库中】

PostgreSQL(有时也被称为“Postgres”或简称为“PG”)是一个强大的、开源的对象-关系数据库管理系统(ORDBMS)。它使用了和许多其他SQL数据库管理系统(如MySQL、SQLServer、Oracle等)相似的查询语言,但它也提供了许多扩展功能,如复杂查询、外键、触发器、视图、事务完整性、多版本并发控制(MVCC)等。扩展性:PostgreSQL支持大量的扩展,这些扩展可以增加新的数据类型、函数、操作符、索引类型、过程语言等。

2024-06-22 22:45:19 614

原创 【大数据离线项目二:数仓数据传输工具--DataX的使用】

数仓工具Data X 的使用!使用DataX是如何进行数据的传输也就是说怎么从mysql或者是SQLserver数据库将数据传输到hive数仓中!Data X怎么使用!数据的同步方式!

2024-06-21 21:07:17 1430

原创 【大数据离线项目一:基于Apache HIve的大数据离线项目的项目背景,技术框架,业务流程】

基于Apache HIve的大数据离线项目的相关技术分享,项目背景的目的,技术框架,业务流程,设备选型,连接数据库。

2024-06-21 00:23:24 799

原创 【Hive下篇: 一篇文章带你了解表的静态分区,动态分区! 分桶!Hive sql的内置函数!复杂数据类型!hive的简单查询语句!】

连接查询!正则表达式! 虚拟列!爆炸函数!行列转换! Hive的数据压缩和数据存储!什么是内连接,外连接,全连接等等。正则表达式是设么样子的。爆炸函数怎么使用。行列转换是怎么转换的。

2024-06-14 17:08:02 790

原创 【Hive中篇: 一篇文章带你了解表的静态分区,动态分区! 分桶!Hive sql的内置函数!复杂数据类型!hive的简单查询语句!】

表的静态分区,动态分区,分桶!Hive sql的内置函数!复杂数据类型!以及hive的简单查询语句!在Hive中,分区是一种优化查询性能的技术,它允许用户将数据分成多个子目录,每个子目录称为一个分区。分桶是Hive中另一种优化查询性能的技术,它将数据分成多个文件(称为桶),每个桶中的数据是原始数据的一个子集。分桶通常与抽样、连接操作等一起使用,以提高查询效率。

2024-06-14 14:10:08 1254

原创 【窗口函数的详细使用】

窗口函数也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据进行实时分析处理。详细的窗口函数案例。

2024-06-06 20:40:46 726

原创 【Hive上篇: 一篇文章带你使用Hive!深入了解Hive!学会Hive!】

什么是Hive?怎么使用Hive?怎么安装部署?HiveHive是基于Hadoop的一个数据仓库工具,用于进行数据提取、转换和加载(ETL)。它可以将结构化的数据文件映射为一张数据库表,并提供类似SQL的查询语言(HiveQL),使用户能够使用SQL语句来查询、汇总和整理大规模的数据集。Hive的核心功能包括数据存储、数据查询、数据处理、数据转换以及数据安全控制等。简单的定义就是:Hive是一个SQL转化转化工具,将SQL的计算转为MapReduce的计算,让开发人员更加方便进行大数据开发。

2024-04-15 18:30:00 1128

原创 【Hadoop技术框架-MapReduce和Yarn的详细描述和部署】

MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce是基于YARN运行的,即没有YARN”无法”运行MapReduce程序。

2024-04-07 21:54:50 1051

原创 【Hadoop技术框架--HDFS】

大数据时代的到来,人们对数据的依赖性越来越大、上网产生的数据量急剧增加、信息量爆炸式增长。因此,只是通过增加计算机的硬盘容量处理数据难以达到要求,这样将所有的数据存储和处理在同一台计算机上便不可行了。此时通过增加计算机的横向容量,即增加计算机的数量,将数据分布在多台计算机上的Hadoop 分布式计算便诞生了。而HDFS是Hadoop 分布式计算的一个重要组成部分,分布式文件系统。

2024-04-02 19:18:01 1053

原创 【大数据技术栈-Hadoop的集群搭建】

在学习了解的内容之前,我们要先知道什么是集群什么是分布式?Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。在搭建之前请一定要确保Hadoop集群搭建的前置准备已经完成。

2024-04-01 00:29:49 778 1

原创 【FIneBI可视化工具的使用】

FIneBI是可视化的工具!首先我们要知道可视化的是什么?我们大数据常说的可视化的数据。例如:将我们数据库的数据进行可视化。

2024-03-28 00:07:27 1372

原创 【ETl工具Kettle的使用技巧】

ETL是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏"数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。

2024-03-27 00:14:47 1105

原创 【史上最全万字mysql进阶语法】

文章主要介绍了DQL的操作,分组查询,分页查询,排序查询,子查询等等,同时介绍了mysql语句的流程.

2024-03-20 21:26:11 978 3

原创 【超万字超详细Linux常用命令大全】

LIinux的基础命令,带有各种命令的作用,语法,参数和详细案例,希望对大家有所帮助。

2024-03-15 13:05:57 809

原创 【大数据开发--概念篇】

大数据的相关概念,以及我们大数据开发的环境,希望对大家有所帮助。

2024-03-13 19:42:22 982

原创 【一名大四学生从Java开发转向大数据的经历】

大家好,我是书生♡,作为一名大四的学生,我曾经也为自己的未来所彷徨,后来大三的时候听朋友说网上的Java开发课程,于是花费了半年的生活费报名了Java开发课程,但是由于当时的贪玩导致没有认真学习,总是在摸鱼,导致学的不扎实,加上学历的劣势,秋招时间投递各种简历5000多份,最终面试寥寥无几、石沉大海。于是自己慢慢的理解有关的开发技术,无意间了解到大数据开发的这个岗位。在之后的日子里,作者会持续更新相关的大数据开发的知识,大家可以关注讨论,同时Git仓库也会每日更新,希望大家敬请期待。

2024-03-12 23:26:24 433

原创 【Spring Boot学习】怎么配置文件,配置文件有什么用

【Spring Boot学习】怎么配置文件,配置文件有什么用

2023-06-24 18:55:53 1917

原创 【Spring Boot学习】Spring Boot的创建和使用

【Spring Boot学习】Spring Boot的创建和使用

2023-06-16 18:03:53 290 2

原创 【Spring学习之生命周期】什么是生命周期?什么是作用域?了解六种作用域

【Spring学习之生命周期】什么是生命周期?什么是作用域?了解六种作用域

2023-06-15 13:58:16 456 2

原创 【Spring学习之更简单的读取和存储Bean对象】属性注入,set注入,构造方法注入

【Spring学习之更简单的读取和存储Bean对象】属性注入,set注入,构造方法注入

2023-06-14 22:39:22 277 3

原创 【Spring框架学习】了解什么是Spring框架?Spring框架有什么用?创建第一个SpringBoot项目

【Spring框架学习】了解什么是Spring框架?Spring框架有什么用?创建第一个SpringBoot项目

2023-06-13 13:12:11 262

原创 【Spring学习之更简单的读取和存储Bean对象】教会你使用五大类注解和方法注解去存储 Bean 对象

【Spring学习之更简单的读取和存储Bean对象】教会你使用五大类注解和方法注解去存储 Bean 对象

2023-06-12 17:11:54 171 3

原创 【JavaEE进阶之Spring】一分钟让你学会什么是Spring以及如何使用创建Spring

一.创建Maven项目1.创建一个普通的Maven项目2.添加Spring框架的支持(spring-context、spring-beans)3.添加启动类二. 存对象1.创建一个Bean对象2.将创建好的bean对象,注入到Spring中三. 取对象得到 Spring 上下⽂,并读取到 Spring 的配置⽂件。获取某⼀个 Bean 对象。使⽤ Bean 对象。

2023-06-11 16:28:27 203 8

原创 【String字符串之后续】

了解String字符串的具体用法

2023-06-07 20:52:10 699 5

原创 【String字符串之前篇】

了解什么是字符串?怎么使用字符串

2023-06-06 17:44:47 392 2

原创 Java面对对象三大特性之封装】

封装:就是将数据和操作数据的方法进行结合,隐藏对象的属性和方法,仅对外实现一些接口和对象进行交互其实就是:将类的实现细节(属性和方法)进行隐藏,对外只提供一些交互的接口

2023-06-05 15:23:50 572 1

原创 【内部类】

教会大家什么是内部类?怎么用?

2023-06-04 20:32:43 551 1

原创 【抽象类和接口】

全面并且详细的讲述了Java中抽象类和接口

2023-06-03 14:57:04 237

原创 【面上对象三大特性之多态】

带领大家了解什么是多态?怎么用?有什么优点。

2023-06-02 10:45:24 492

原创 【面向对象三大特性之继承】

带领大家了解并熟练使用继承,了解什么是继承

2023-05-31 11:31:08 422

原创 【初识Java之类和对象】

带大家了解并熟悉Java的类和对象

2023-05-29 16:25:25 317 4

原创 【HTTP协议详解】

一步了解Http详解

2023-05-21 23:11:21 520 7

原创 【前端三剑客之CSS】

快速了解前端三剑客之CSS

2023-05-08 23:54:57 638 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除