自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

书生的技术分享

分享大数据开发,java,python等相关技术博客

  • 博客(88)
  • 收藏
  • 关注

原创 【数据分析:RFM客户价值度模型】

客户价值度用来评估用户的价值情况,是区分客户价值的重要模型和参考依据,也是衡量不同营销效果的关键指标之一。价值度模型一般基于交易行为产生,衡量的是有实体转化价值的行为。常用的价值度模型是RFMRFM模型是根据客户最近一次购买时间R(Recency)购买频率F(Frequency)购买金额M(Monetary)计算得出RFM得分通过这3个维度来评估客户的订单活跃价值,常用来做客户分群或价值区分RFM模型基于一个固定时间点来做模型分析,不同时间计算的的RFM结果可能不一样RF。

2024-08-24 22:04:58 1354

原创 【数据分析:一篇文章带你掌握Pandas高级可视化技巧】

【数据分析:一篇文章带你掌握Pandas高级可视化技巧】

2024-08-13 22:55:55 691

原创 【Pandas高手进阶:掌握分组分箱与合并变形,解锁数据整理新技能】

【Pandas高手进阶:掌握分组分箱与合并变形,解锁数据整理新技能】

2024-08-13 20:33:13 929

原创 【《Kafka 入门指南:从零基础到精通》】

【《Kafka 入门指南:构建可靠的消息传递系统》】Apache Kafka 是一个分布式流处理平台,它提供了一种高效、可靠的方式来发布和订阅消息。Kafka 的消息存储机制是其核心特性之一,下面将详细介绍 Kafka 如何存储消息。Kafka 的消息存储在磁盘上,并以一种高效的文件格式进行组织。

2024-08-11 21:27:16 965

原创 【数据分析---- Pandas进阶指南:核心计算方法、缺失值处理及数据类型管理】

【数据分析---- Pandas进阶指南:核心计算方法、缺失值处理及数据类型管理】 !!!!!在 Pandas 中,Timedelta类型用于表示两个日期时间之间的差值。这种类型非常有用,尤其是在处理时间序列数据时。下面是一些关于Timedelta类型的基础知识和示例。创建 Timedelta 对象可以使用或者字符串来创建Timedelta对象。使用创建# 创建 Timedelta 对象print(td1)使用字符串创建

2024-08-11 01:20:43 1266

原创 【《Spark SQL 深度探索:内置函数、数据源处理与自定义函数,SparkSQL连接Hive实践》】

【《Spark SQL 深度探索:内置函数、数据源处理与自定义函数,SparkSQL连接Hive实践》】。欢迎大家一起探索讨论!!!

2024-08-08 20:34:46 996

原创 【Spark计算引擎----第五篇(SparkSQL)---《Spark SQL高级技巧:SQL语句、缓存/Checkpoint、高效Join、数据清洗及内置函数的应用》】

《Spark SQL高级技巧:SQL语句、缓存/Checkpoint、高效Join、数据清洗及内置函数的应用》

2024-08-07 21:47:08 809

原创 【数据分析---Pandas实战指南:精通数据查询、增删改操作与高效索引和列名操作管理】

【数据分析---Pandas实战指南:精通数据查询、增删改操作与高效索引和列名操作管理】s对象或df对象如何执行自定函数?-> 借助apply方s/df.apply(func=,axis=,args=)func: 自定义函数名axis: df中按行(1)或按列(0,默认的)执行args: 自定义函数带其他有参数时, 需要通args传参s对象的apply方法s对象的apply方法自定义函数中的第一个参数值是s对象的每一个值自定义函数返回值为一个值apply_dfif x=='天通苑租房':

2024-08-07 18:06:56 1034

原创 【Spark计算引擎----第四篇(SparkSQL)---《Spark SQL 介绍:DataFrame 的 Row 和 Schema,DataFrame 的创建与基本使用》】

《Spark SQL 介绍:DataFrame 的 Row 和 Schema,DataFrame 的创建与基本使用》!!!Spark SQL 是 Apache Spark 中的一个模块,它为处理结构化和半结构化数据提供了一种高效且易用的方法。Spark SQL 允许用户通过 SQL 查询或通过 DataFrame 和 Dataset API 来处理数据。SparkSQL是处理结构化数据的模块/组件结构化数据 -> 可以用schema描述的数据表格,

2024-08-05 22:50:20 752

原创 【Spark计算引擎----第三篇(RDD)---《深入理解 RDD:依赖、Spark 流程、Shuffle 与缓存、Spark并行度》】

《深入理解 RDD:依赖、Spark 流程、Shuffle 与缓存》在 Apache Spark 中,Shuffle 是一个关键的概念,它涉及到数据的重新分布,通常发生在宽依赖操作中,例如groupByKeyjoin等。mapreduce的shuffle作用: 将map计算后的数据传递给reduce使用mapreduce的shuffle过程: 分区,排序,合并(规约)Shuffle 的定义Shuffle 是指在 Spark 中对数据进行重新分布的过程,通常涉及到将数据从一个节点移动到另一个节点。

2024-08-05 01:14:09 826

原创 【数据分析--Pandas实战指南在真实世界数据中的应用】

数据分析的介绍,Python开源库,配置Jupyter,Pandas读取数据

2024-08-04 22:25:12 1063

原创 【数据分析--带你认识数据分析,了解数据分析的】

数据分析的介绍,Python开源库,配置Jupyter!!!定义:数据分析是指使用适当的统计方法和技术对收集来的数据进行系统的检查、清理、转换和建模,以揭示其中的趋势、模式和结论的过程。数据分析的主要目标是从数据中提取有用的信息,以支持决策制定和问题解决

2024-08-04 14:38:02 926

原创 【Spark计算引擎----第二篇(RDD):一篇文章带你清楚什么是RDD?RDD的概念,RDD的特性,怎么创建一个RDD,RDD的算子】

RDD的概念,RDD的特性,怎么创建一个RDD,RDD的算子等等!!!RDD是一种弹性分布式数据集合是spark中最基本的数据类型,它提供了容错能力和并行处理的能力。RDD(Resilient Distributed Dataset)弹性分布式数据集合,是Spark中最基本的数据抽象结构,代表一个不可变(只读)、可分区、里面的元素可并行计算的集合。是Spark中的一种数据类型,管理spark的内存数据。

2024-08-02 21:02:13 1207

原创 【Spark计算引擎----第一篇:(全网最详细)带你从零基础通往精通之路】

Apache Spark是专为大规模数据处理而设计的快速通用的分布式计算引擎(基于内存),是开源的类Hadoop MapReduce的通用分布式计算框架。和MapReduce一样,都是完成大规模数据的计算处理。Spark 被设计用于处理诸如==批处理、流处理、机器学习、图计算==等多种类型的数据处理任务,并且可以在各种数据源上运行,包括结构化与非结构化的数据。

2024-07-31 20:22:54 1332

原创 【FineReport的详细使用教程】

FineReport报表软件是一款纯Java编写的,集数据展示(报表)和数据录入(表单)功能于一身的企业级Web报表工具,它专业、简捷、灵活的特点和无码理念,仅需简单的拖拽操作便可以设计复杂的中国式报表,搭建数据决策分析系统。FineReport旨在帮助用户轻松构建灵活的数据分析和报表系统,通过表格、图表等形式动态展示数据,辅助企业进行数据分析和管理决策。它大大缩短了项目周期,降低了实施成本,有效解决了企业信息孤岛问题,使数据真正产生其应用价值。

2024-07-13 21:22:12 2465 1

原创 【电商指标详解】

电商行业中常见指标的详解!存在的原因和作用!!

2024-07-03 21:33:49 647

原创 【数据分析思维--史上最全最牛逼】

数据分析的思维!怎么提好我们对于业务的判断是非常重要的!!!

2024-07-03 20:39:14 541

原创 【一篇文章带你搞懂--拉链表!!!拉链表的原理是什么!】

拉链表是针对数据仓库设计中表存储数据的方式而定义的一种数据模型,主要用于记录数据变更历史。定义:拉链表是一种用于记录数据变更历史的表结构,它记录了事物从开始到当前状态的所有变化信息。通过记录数据的创建时间、更新时间等字段,可以方便地查询数据变更历史。结构特点:拉链表中的每个记录通常包含字段如创建时间(create_time)、更新时间(update_time)、数据本身(如order_id、user_id等)以及可能的操作者信息等。

2024-07-01 17:29:38 1892

原创 【Hive中常见的优化手段----数据采集!Join 优化!Hive索引!数据倾斜!mapreduce本地模式!map和reduce数量调整!】

Hive中常见的优化手段----索引的定义:关系型数据库中的索引:在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。一般是建立在主键上的。关系型数据库中的索引:hive中的索引功能是有限的,hive中没有关系数据库中主键的概念,但是还是可以对某一些字段建立索引。Hive索引的目标是提高对表的某些列进行查询查找的速度。

2024-06-27 22:44:53 1878

原创 【大数据离线项目五:什么是维度?什么是指标?指标有哪几种分类?电商的业务中有几种需求呢?我们如何把这些需求通过数仓的层级完全展示出来?跟随这篇文章解决心底的疑问!!!】

什么是维度?什么是指标?指标有哪几种分类?维度定义:维度是度量的环境,用来反映业务的一类属性。这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(包括国家、地区、省、城市等)、时间维度(包括年、季、月、周、日等),商品的种类也是一个维度。特点:维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。维度所包含的表示维度的列,称为维度属性。

2024-06-25 22:15:42 1019

原创 【大数据离线项目四:什么是海豚调度?怎么使用可以将海豚调度应用到我们的大数据项目开发中?】

Apache DolphinScheduler(海豚调度)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。 解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG)流式

2024-06-23 20:47:59 1598

原创 【大数据离线项目三:将HIve数仓中的dim进行拉宽聚合处理,PostgreSQL的使用,以及怎么将数据导出到PostgreSQL数据库中】

PostgreSQL(有时也被称为“Postgres”或简称为“PG”)是一个强大的、开源的对象-关系数据库管理系统(ORDBMS)。它使用了和许多其他SQL数据库管理系统(如MySQL、SQLServer、Oracle等)相似的查询语言,但它也提供了许多扩展功能,如复杂查询、外键、触发器、视图、事务完整性、多版本并发控制(MVCC)等。扩展性:PostgreSQL支持大量的扩展,这些扩展可以增加新的数据类型、函数、操作符、索引类型、过程语言等。

2024-06-22 22:45:19 652

原创 【大数据离线项目二:数仓数据传输工具--DataX的使用】

数仓工具Data X 的使用!使用DataX是如何进行数据的传输也就是说怎么从mysql或者是SQLserver数据库将数据传输到hive数仓中!Data X怎么使用!数据的同步方式!

2024-06-21 21:07:17 1635

原创 【大数据离线项目一:基于Apache HIve的大数据离线项目的项目背景,技术框架,业务流程】

基于Apache HIve的大数据离线项目的相关技术分享,项目背景的目的,技术框架,业务流程,设备选型,连接数据库。

2024-06-21 00:23:24 1047

原创 【Hive下篇: 一篇文章带你了解表的静态分区,动态分区! 分桶!Hive sql的内置函数!复杂数据类型!hive的简单查询语句!】

连接查询!正则表达式! 虚拟列!爆炸函数!行列转换! Hive的数据压缩和数据存储!什么是内连接,外连接,全连接等等。正则表达式是设么样子的。爆炸函数怎么使用。行列转换是怎么转换的。

2024-06-14 17:08:02 841

原创 【Hive中篇: 一篇文章带你了解表的静态分区,动态分区! 分桶!Hive sql的内置函数!复杂数据类型!hive的简单查询语句!】

表的静态分区,动态分区,分桶!Hive sql的内置函数!复杂数据类型!以及hive的简单查询语句!在Hive中,分区是一种优化查询性能的技术,它允许用户将数据分成多个子目录,每个子目录称为一个分区。分桶是Hive中另一种优化查询性能的技术,它将数据分成多个文件(称为桶),每个桶中的数据是原始数据的一个子集。分桶通常与抽样、连接操作等一起使用,以提高查询效率。

2024-06-14 14:10:08 1402

原创 【窗口函数的详细使用】

窗口函数也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据进行实时分析处理。详细的窗口函数案例。

2024-06-06 20:40:46 938

原创 【Hive上篇: 一篇文章带你使用Hive!深入了解Hive!学会Hive!】

什么是Hive?怎么使用Hive?怎么安装部署?HiveHive是基于Hadoop的一个数据仓库工具,用于进行数据提取、转换和加载(ETL)。它可以将结构化的数据文件映射为一张数据库表,并提供类似SQL的查询语言(HiveQL),使用户能够使用SQL语句来查询、汇总和整理大规模的数据集。Hive的核心功能包括数据存储、数据查询、数据处理、数据转换以及数据安全控制等。简单的定义就是:Hive是一个SQL转化转化工具,将SQL的计算转为MapReduce的计算,让开发人员更加方便进行大数据开发。

2024-04-15 18:30:00 1176

原创 【Hadoop技术框架-MapReduce和Yarn的详细描述和部署】

MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MapReduce是基于YARN运行的,即没有YARN”无法”运行MapReduce程序。

2024-04-07 21:54:50 1111

原创 【Hadoop技术框架--HDFS】

大数据时代的到来,人们对数据的依赖性越来越大、上网产生的数据量急剧增加、信息量爆炸式增长。因此,只是通过增加计算机的硬盘容量处理数据难以达到要求,这样将所有的数据存储和处理在同一台计算机上便不可行了。此时通过增加计算机的横向容量,即增加计算机的数量,将数据分布在多台计算机上的Hadoop 分布式计算便诞生了。而HDFS是Hadoop 分布式计算的一个重要组成部分,分布式文件系统。

2024-04-02 19:18:01 1102

原创 【大数据技术栈-Hadoop的集群搭建】

在学习了解的内容之前,我们要先知道什么是集群什么是分布式?Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。在搭建之前请一定要确保Hadoop集群搭建的前置准备已经完成。

2024-04-01 00:29:49 835 1

原创 【FIneBI可视化工具的使用】

FIneBI是可视化的工具!首先我们要知道可视化的是什么?我们大数据常说的可视化的数据。例如:将我们数据库的数据进行可视化。

2024-03-28 00:07:27 2247

原创 【ETl工具Kettle的使用技巧】

ETL是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏"数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。

2024-03-27 00:14:47 1363

原创 【史上最全万字mysql进阶语法】

文章主要介绍了DQL的操作,分组查询,分页查询,排序查询,子查询等等,同时介绍了mysql语句的流程.

2024-03-20 21:26:11 1080 3

原创 【超万字超详细Linux常用命令大全】

LIinux的基础命令,带有各种命令的作用,语法,参数和详细案例,希望对大家有所帮助。

2024-03-15 13:05:57 838

原创 【大数据开发--概念篇】

大数据的相关概念,以及我们大数据开发的环境,希望对大家有所帮助。

2024-03-13 19:42:22 1090

原创 【一名大四学生从Java开发转向大数据的经历】

大家好,我是书生♡,作为一名大四的学生,我曾经也为自己的未来所彷徨,后来大三的时候听朋友说网上的Java开发课程,于是花费了半年的生活费报名了Java开发课程,但是由于当时的贪玩导致没有认真学习,总是在摸鱼,导致学的不扎实,加上学历的劣势,秋招时间投递各种简历5000多份,最终面试寥寥无几、石沉大海。于是自己慢慢的理解有关的开发技术,无意间了解到大数据开发的这个岗位。在之后的日子里,作者会持续更新相关的大数据开发的知识,大家可以关注讨论,同时Git仓库也会每日更新,希望大家敬请期待。

2024-03-12 23:26:24 513

原创 【Spring Boot学习】怎么配置文件,配置文件有什么用

【Spring Boot学习】怎么配置文件,配置文件有什么用

2023-06-24 18:55:53 2026

原创 【Spring Boot学习】Spring Boot的创建和使用

【Spring Boot学习】Spring Boot的创建和使用

2023-06-16 18:03:53 307 2

原创 【Spring学习之生命周期】什么是生命周期?什么是作用域?了解六种作用域

【Spring学习之生命周期】什么是生命周期?什么是作用域?了解六种作用域

2023-06-15 13:58:16 487 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除