书生♡-CSDN博客

原创【15个电商人必备的数据分析模型：从GMV拆解到用户增长，一次讲透！】

15个电商数据分析模型，助力精准决策本文系统梳理了电商运营中的15个核心数据分析模型，涵盖用户价值分析、GMV增长、品类运营和营销优化四大体系。重点介绍了RFM用户分层、GMV漏斗拆解、波士顿矩阵等经典模型在不同电商平台(阿里、抖音、快手等)的应用场景。通过实际案例解析，展示了如何运用这些模型精准定位高价值用户、优化营销投放、提升品类销售和改善运营效率，为电商从业者提供了一套完整的数字化决策方法论体系。掌握这些模型，可有效将数据转化为可执行的商业策略，实现业绩增长。

2025-06-24 14:56:42 3531

原创大数据方向的年度技术总结

一、特定技术领域的年度深度总结1.数据湖（DataLake）2.实时流处理3.机器学习与大数据结合4.数据治理与隐私保护二、技术工具与平台的年度使用心得三、技术项目实战经验与成果展示1.零售业大数据分析项目在过去的一年中，数据湖作为一种存储大量结构化和非结构化数据的环境，越来越受到企业的青睐。数据湖提供了灵活的数据存储方式，支持多种数据处理工具和分析方法。灵活性与可扩展性：数据湖允许企业以原始格式存储数据，无需预先定义数据模型。

2025-01-20 08:54:47 941

原创【数据分析：超实用的pandas语法技巧（一）】

【数据分析：超实用的pandas语法技巧（一）】删除DF对象中的一列/多列数据、数据筛选、避免数值太大导致的科学记数法、np.where 条件筛选过滤、时间日期转换

2024-12-19 11:16:21 1037 1

原创【企业数字化转型方向】

企业数字化转型（Digital Transformation）是指企业利用数字技术（如云计算、大数据、人工智能、物联网等）来革新其商业模式、运营流程、产品和服务，以提升效率、优化客户体验、创造新的价值，并最终实现业务增长和竞争优势的过程。企业数字化转型是一个持续的过程，它需要企业在多个方面做出改变，从思维模式到实际操作。成功的数字化转型不仅依赖于技术的选择和实施，更取决于企业是否能够灵活应对变化，快速适应新的市场环境和技术趋势。通过这些努力，企业可以变得更加敏捷、有竞争力，并准备好迎接未来的挑战。

2024-12-09 13:38:59 865 1

原创【数据分析：RFM客户价值度模型】

客户价值度用来评估用户的价值情况，是区分客户价值的重要模型和参考依据，也是衡量不同营销效果的关键指标之一。价值度模型一般基于交易行为产生，衡量的是有实体转化价值的行为。常用的价值度模型是RFMRFM模型是根据客户最近一次购买时间R（Recency）购买频率F（Frequency）购买金额M（Monetary）计算得出RFM得分通过这3个维度来评估客户的订单活跃价值，常用来做客户分群或价值区分RFM模型基于一个固定时间点来做模型分析，不同时间计算的的RFM结果可能不一样RF。

2024-08-24 22:04:58 2735

原创【数据分析：一篇文章带你掌握Pandas高级可视化技巧】

【数据分析：一篇文章带你掌握Pandas高级可视化技巧】

2024-08-13 22:55:55 916

原创【Pandas高手进阶：掌握分组分箱与合并变形，解锁数据整理新技能】

【Pandas高手进阶：掌握分组分箱与合并变形，解锁数据整理新技能】

2024-08-13 20:33:13 1278

原创【《Kafka 入门指南：从零基础到精通》】

【《Kafka 入门指南：构建可靠的消息传递系统》】Apache Kafka 是一个分布式流处理平台，它提供了一种高效、可靠的方式来发布和订阅消息。Kafka 的消息存储机制是其核心特性之一，下面将详细介绍 Kafka 如何存储消息。Kafka 的消息存储在磁盘上，并以一种高效的文件格式进行组织。

2024-08-11 21:27:16 1513

原创【数据分析---- Pandas进阶指南：核心计算方法、缺失值处理及数据类型管理】

【数据分析---- Pandas进阶指南：核心计算方法、缺失值处理及数据类型管理】！！！！！在 Pandas 中，Timedelta类型用于表示两个日期时间之间的差值。这种类型非常有用，尤其是在处理时间序列数据时。下面是一些关于Timedelta类型的基础知识和示例。创建 Timedelta 对象可以使用或者字符串来创建Timedelta对象。使用创建# 创建 Timedelta 对象print(td1)使用字符串创建

2024-08-11 01:20:43 1788 1

原创【《Spark SQL 深度探索：内置函数、数据源处理与自定义函数，SparkSQL连接Hive实践》】

【《Spark SQL 深度探索：内置函数、数据源处理与自定义函数，SparkSQL连接Hive实践》】。欢迎大家一起探索讨论！！！

2024-08-08 20:34:46 1390

原创【Spark计算引擎----第五篇（SparkSQL）---《Spark SQL高级技巧：SQL语句、缓存/Checkpoint、高效Join、数据清洗及内置函数的应用》】

《Spark SQL高级技巧：SQL语句、缓存/Checkpoint、高效Join、数据清洗及内置函数的应用》

2024-08-07 21:47:08 1259

原创【数据分析---Pandas实战指南：精通数据查询、增删改操作与高效索引和列名操作管理】

【数据分析---Pandas实战指南：精通数据查询、增删改操作与高效索引和列名操作管理】s对象或df对象如何执行自定函数?-> 借助apply方s/df.apply(func=,axis=,args=)func: 自定义函数名axis: df中按行(1)或按列(0,默认的)执行args: 自定义函数带其他有参数时, 需要通args传参s对象的apply方法s对象的apply方法自定义函数中的第一个参数值是s对象的每一个值自定义函数返回值为一个值apply_dfif x=='天通苑租房':

2024-08-07 18:06:56 1427

原创【Spark计算引擎----第四篇（SparkSQL）---《Spark SQL 介绍：DataFrame 的 Row 和 Schema，DataFrame 的创建与基本使用》】

《Spark SQL 介绍：DataFrame 的 Row 和 Schema，DataFrame 的创建与基本使用》！！！Spark SQL 是 Apache Spark 中的一个模块，它为处理结构化和半结构化数据提供了一种高效且易用的方法。Spark SQL 允许用户通过 SQL 查询或通过 DataFrame 和 Dataset API 来处理数据。SparkSQL是处理结构化数据的模块/组件结构化数据 -> 可以用schema描述的数据表格,

2024-08-05 22:50:20 1313

原创【Spark计算引擎----第三篇（RDD）---《深入理解 RDD：依赖、Spark 流程、Shuffle 与缓存、Spark并行度》】

《深入理解 RDD：依赖、Spark 流程、Shuffle 与缓存》在 Apache Spark 中，Shuffle 是一个关键的概念，它涉及到数据的重新分布，通常发生在宽依赖操作中，例如groupByKeyjoin等。mapreduce的shuffle作用：将map计算后的数据传递给reduce使用mapreduce的shuffle过程：分区，排序，合并（规约）Shuffle 的定义Shuffle 是指在 Spark 中对数据进行重新分布的过程，通常涉及到将数据从一个节点移动到另一个节点。

2024-08-05 01:14:09 1159

原创【数据分析--Pandas实战指南在真实世界数据中的应用】

数据分析的介绍，Python开源库，配置Jupyter，Pandas读取数据

2024-08-04 22:25:12 1374

原创【数据分析--带你认识数据分析，了解数据分析的】

数据分析的介绍，Python开源库，配置Jupyter！！！定义：数据分析是指使用适当的统计方法和技术对收集来的数据进行系统的检查、清理、转换和建模，以揭示其中的趋势、模式和结论的过程。数据分析的主要目标是从数据中提取有用的信息，以支持决策制定和问题解决

2024-08-04 14:38:02 5150

原创【Spark计算引擎----第二篇（RDD）：一篇文章带你清楚什么是RDD？RDD的概念，RDD的特性，怎么创建一个RDD，RDD的算子】

RDD的概念，RDD的特性，怎么创建一个RDD，RDD的算子等等！！！RDD是一种弹性分布式数据集合是spark中最基本的数据类型，它提供了容错能力和并行处理的能力。RDD（Resilient Distributed Dataset）弹性分布式数据集合，是Spark中最基本的数据抽象结构，代表一个不可变（只读）、可分区、里面的元素可并行计算的集合。是Spark中的一种数据类型，管理spark的内存数据。

2024-08-02 21:02:13 2061 1

原创【Spark计算引擎----第一篇：（全网最详细）带你从零基础通往精通之路】

Apache Spark是专为大规模数据处理而设计的快速通用的分布式计算引擎（基于内存），是开源的类Hadoop MapReduce的通用分布式计算框架。和MapReduce一样，都是完成大规模数据的计算处理。Spark 被设计用于处理诸如==批处理、流处理、机器学习、图计算==等多种类型的数据处理任务，并且可以在各种数据源上运行，包括结构化与非结构化的数据。

2024-07-31 20:22:54 2588

原创【FineReport的详细使用教程】

FineReport报表软件是一款纯Java编写的，集数据展示（报表）和数据录入（表单）功能于一身的企业级Web报表工具，它专业、简捷、灵活的特点和无码理念，仅需简单的拖拽操作便可以设计复杂的中国式报表，搭建数据决策分析系统。FineReport旨在帮助用户轻松构建灵活的数据分析和报表系统，通过表格、图表等形式动态展示数据，辅助企业进行数据分析和管理决策。它大大缩短了项目周期，降低了实施成本，有效解决了企业信息孤岛问题，使数据真正产生其应用价值。

2024-07-13 21:22:12 7917 4

原创【电商指标详解】

电商行业中常见指标的详解！存在的原因和作用！！

2024-07-03 21:33:49 1214

原创【数据分析思维--史上最全最牛逼】

数据分析的思维！怎么提好我们对于业务的判断是非常重要的！！！

2024-07-03 20:39:14 829

原创【一篇文章带你搞懂--拉链表！！！拉链表的原理是什么！】

拉链表是针对数据仓库设计中表存储数据的方式而定义的一种数据模型，主要用于记录数据变更历史。定义：拉链表是一种用于记录数据变更历史的表结构，它记录了事物从开始到当前状态的所有变化信息。通过记录数据的创建时间、更新时间等字段，可以方便地查询数据变更历史。结构特点：拉链表中的每个记录通常包含字段如创建时间（create_time）、更新时间（update_time）、数据本身（如order_id、user_id等）以及可能的操作者信息等。

2024-07-01 17:29:38 3640

原创【Hive中常见的优化手段----数据采集！Join 优化！Hive索引！数据倾斜！mapreduce本地模式！map和reduce数量调整！】

Hive中常见的优化手段----索引的定义：关系型数据库中的索引：在关系数据库中，索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构，它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。一般是建立在主键上的。关系型数据库中的索引：hive中的索引功能是有限的，hive中没有关系数据库中主键的概念，但是还是可以对某一些字段建立索引。Hive索引的目标是提高对表的某些列进行查询查找的速度。

2024-06-27 22:44:53 2288 1

原创【大数据离线项目五：什么是维度？什么是指标？指标有哪几种分类？电商的业务中有几种需求呢？我们如何把这些需求通过数仓的层级完全展示出来？跟随这篇文章解决心底的疑问！！！】

什么是维度？什么是指标？指标有哪几种分类？维度定义：维度是度量的环境，用来反映业务的一类属性。这类属性的集合构成一个维度，也可以称为实体对象。维度属于一个数据域，如地理维度（包括国家、地区、省、城市等）、时间维度（包括年、季、月、周、日等），商品的种类也是一个维度。特点：维度是维度建模的基础和灵魂。在维度建模中，将度量称为“事实”，将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如，在分析交易过程时，可以通过买家、卖家、商品和时间等维度描述交易发生的环境。维度所包含的表示维度的列，称为维度属性。

2024-06-25 22:15:42 2126

空空如也

空空如也