- 博客(244)
- 收藏
- 关注
原创 day09_实时类标签/指标
zookeeper、Kafka的启动命令启动zookeeper(没有启动的,才需要执行)启动KafkaKafka其他的相关命令查看当前集群有哪些Topic新建Topic(分区数没要求,副本数<=broker节点个数)参看Topic的详细信息注意: 要提前创建好Kafka的Topic。
2025-02-13 09:55:08
260
原创 day08_Doris和实时类标签
1. 简单来说是一个开源的实时分析型数据库,基于MPP(大规模并行处理)架构,专为高效处理大规模数据的实时查询和分析而设计。它能够提供亚秒级的查询响应时间,广泛应用于报表分析、用户行为分析、日志检索等场景。2. 具体最初由百度开发,名为Palo,后于 2018 年捐赠给 Apache 基金会并更名为Doris。高性能:通过列式存储、多级索引和智能压缩技术,实现高效的数据存储和查询。易用性:支持标准 SQL 语法,兼容 MySQL 协议,用户可以通过熟悉的工具和语言进行操作。实时性。
2025-02-11 09:04:23
697
原创 day07_统计类标签
PSM模型即价格敏感度测试模型,是目前在价格测试的诸多模型中,最简单、最实用。为大多数市场研究公司所认可。通过PSM模型,不仅可以得出最优价格,而且得出合理的价格区间。新会员:首次消费后30天内的;老会员:首次消费后大于30天;除此之外,还要区分没有消过费的会员。通过对会员进行标记,可以对不同会员采取不同的营销策略。比如电商网站要做一次营销活动,需要针对不同价值的客户群体进行分群,对于高价值的用户推荐手表,珠宝等高端商品,对于低价值用户推荐打折促销的廉价商品。
2025-02-08 15:46:59
775
原创 day06_统计类标签
USG(User Shopping Gender),即用户购物性别。那么如何来计算用户购物性别标签呢?购物性别男:N月购买的男性特征商品下单数> N月购买的女性特征商品下单数,且男性特征商品下单数占比>=0.01购物性别女:N月购买的男性特征商品下单数<N月购买的女性特征商品下单数,且女性特征商品下单数占比>=0.01购物性别中性:其他情况。
2025-02-07 09:36:58
292
原创 day04_匹配类标签
一般在大公司中,会有高级开发/架构师级别的人在项目开发初始阶段,从上帝视角对整个项目进行规划,抽取封装一些公共代码,形成整个项目的大体框架,如项目中的公共模块,工具类等……或者在项目开发初始阶段没有做合理的系统的规划,只是完成了基本的功能。需要注意的是数据的处理:国籍的数据是中文,跟标签的rule数据类型不同;在满足闭包语法的基础上,还需要在外部函数的形参这个地方,有且只能有一个形参,该形参用来接收被增强/修饰的函数。1- 作用:在不改变原始函数内容和函数调用的基础上,对函数功能进行增强。
2025-01-20 20:06:48
443
原创 day03_开发前准备和匹配类标签
因为本项目是建立在离线数仓的基础上,也就是说,在用户画像项目开始前,已经有部分数据进行了加工处理,所以在实际开发时,可以直接使用存储在Hive数仓中的数据,避免重复加工。
2025-01-19 22:13:08
805
原创 day02_ElasticSearch基础和SeaTunnel
Elaticsearch,简称为es,es是一个基于apache开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTfulAPI来隐藏Lucene的复杂性,从而让全文搜索变得简单。1.简单来说是一个开源的分布式搜索引擎。
2025-01-19 21:55:59
1549
原创 day01_项目介绍和环境搭建
简单来说:用户画像就像是“用户的数字名片”,通过收集和分析用户的行为、兴趣、demographics(人口统计信息)等数据,构建出一个虚拟的用户模型,帮助企业更好地理解和服务用户。具体而言数据来源行为数据:用户的浏览、点击、购买等行为。兴趣数据:用户的偏好、关注点、兴趣标签。人口统计信息:用户的年龄、性别、地域、职业等。构建方法数据收集:通过日志、埋点、问卷调查等方式收集用户数据。数据分析:使用统计分析和机器学习方法,挖掘用户特征。标签化:将用户特征转化为标签,如“高消费用户”、“科技爱好者”
2025-01-19 20:58:03
759
原创 day_2_排序算法和树
选择排序(selection sort)的工作原理非常简单:开启一个循环,每轮从未排序区间选择最小的元素,将其放到已排序区间的末尾。因此,可以增加一个标志位。 在各个领域中考虑到数据的各种限制和规范,要得到一个符合实际的优秀算法,得经过大量的推理和分析。所谓排序,使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。记忆:具有相同关键字的纪录经过排序后,相对位置保持不变,这样的算法是稳定性算法。无论是简单的升序,还是复杂的分类排列,排序都向我们展示了数据的和谐美感。
2025-01-15 17:00:38
1150
原创 day_1_数据结构与算法
知道什么是数据结构知道什么是算法我们如何用Python中的类型来保存一个班的学生信息?如果想要快速的通过学生姓名获取其信息呢?实际上当我们在思考这个问题的时候,我们已经用到了数据结构。列表和字典都可以存储一个班的学生信息,但是想要在列表中获取一名同学的信息时,就要遍历这个列表,其时间复杂度为O(n),而使用字典存储时,可将学生姓名作为字典的键,学生信息作为值,进而查询时不需要遍历便可快速获取到学生信息,其时间复杂度为O(1)。
2025-01-14 17:03:50
811
原创 day10_Structured Steaming
简单来说:有界数据就像是“有限的书本”,数据量固定且已知;无界数据则像是“无限的河流”,数据持续生成且量未知。具体而言有界数据定义:数据量固定且已知,处理完成后任务结束。示例:存储在文件或数据库中的历史数据。处理方式:适合批处理(Batch Processing),如使用Spark的RDD或DataFrame处理。无界数据定义:数据持续生成且量未知,处理任务通常不会结束。示例:实时日志流、传感器数据、用户点击流。处理方式。
2025-01-14 15:03:52
1202
原创 day09_kafka高级
Kafka Eagle是一个用于监控和管理kafka的开源组件,可以同时监控多个kafka集群,通过Kafka Eagle可以看到当前的消费者组,对于每个组,他们正在使用的主题以及该组在每个主题中的偏移量,消费积压等等JMX(Java Management Extensions,即 Java 管理扩展)是一个为应用程序、设备、系统等植入管理功能的框架。kafka 中已经集成该框架它提供了对Java应用程序和JVM的监控和管理功能。
2025-01-13 13:26:23
1433
原创 day08_Kafka
MQ:message queue消息队列activeMQ: 出现时期比较早的一款消息队列的中间件产品,在早期使用人群是非常多,目前整个社区活跃度严重下降,使用人群很少了rabbitMQ: 此款是目前使用人群比较多的一款消息队列的中间件的产品,社区活跃度比较高,主要是应用传统业务领域中rocketMQ: 是阿里推出的一款消息队列的中间件的产品,目前主要是在阿里系环境中使用,目前支持的客户端比较少,主要是Java中应用较多。
2025-01-12 19:22:22
957
原创 1555银行账户概要_pandas解答
__________________________________________二.答案_MySQL一图解MySQL一图解__可只需看此!!!上面sql转为pandas------------------------------------------------------------------------------1. 方法分析流程图#mermaid-svg-kvZ5nBaH5NT9CHlA {font-family:"trebuchet ms",verdana,arial,sa
2025-01-12 00:01:25
1039
原创 day07_Spark SQL
分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])分析函数可以大致分成如下3类:1- 第一类: 聚合函数 sum() count() avg() max() min()2- 第二类: 排序函数 row_number() rank() dense_rank()3- 第三类: 其他函数 ntile() first_value() last_value() lead() lag()
2025-01-10 14:52:15
1313
原创 day06_Spark SQL
分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])分析函数可以大致分成如下3类:1- 第一类: 聚合函数 sum() count() avg() max() min()2- 第二类: row_number() rank() dense_rank() ntile()3- 第三类: first_value() last_value() lead() lag()
2025-01-09 13:30:38
1341
原创 day05_Spark SQL
Spark SQL是Spark多种组件中其中一个,主要是用于处理大规模的**【结构化数据】**什么是结构化数据: 一份数据, 每一行都有固定的列, 每一列的类型都是一致的 我们将这样的数据称为结构化的数据例如: mysql的表数据1 张三 202 李四 153 王五 184 赵六 12简单来说:Spark SQL是Spark中用于处理结构化数据的模块,就像是“SQL与大数据之间的桥梁”,让用户能够用熟悉的SQL语句查询和分析大规模数据。具体而言核心功能。
2025-01-08 23:04:53
1726
1
原创 day04_Spark Core
点击流日志数据结构说明: Nginx日志 访问网站的日志数据数据字段说明:1- ip地址2- 用户标识cookie信息(- - 表示没有)3- 访问时间(时间,时区)4- 请求方式(get / post /Head ....)5- 请求的资源路径6- 请求的协议7- 请求状态码: 200 成功8- 响应的字节长度9- 来源的URL( - 标识直接访问, 不是从某个页面跳转来的)10- 访问的浏览器标识。
2025-01-06 18:25:46
679
原创 day03_Spark Core
RDD:英文全称Resilient Distributed Dataset,叫做弹性分布式数据集,代表一个不可变、可分区、里面的元素可并行计算的分布式的抽象的数据集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算Dataset数据集:一个用于存放数据的集合简单来说,RDD(弹性分布式数据集)是Spark中的“数据万能胶”,它能够将大规模数据集分散存储在集群中,并提供高效的计算能力。
2025-01-05 21:59:41
1160
1
原创 open_MS问题
项目背景介绍甄选项目是一个专注于电商平台的会员运营分析系统。该项目旨在通过数据分析和机器学习技术,提升电商平台的会员运营效率,优化用户体验,并增加销售额。项目背景介绍如下:业务需求:电商平台需要更精准地了解会员的消费行为和偏好,以便提供个性化的推荐和服务,从而提高用户满意度和忠诚度。数据分析需求:通过对会员数据的深度挖掘和分析,发现潜在的消费模式和趋势,为决策提供支持。技术挑战:如何有效地处理和分析大量的会员数据,提取有价值的信息,并将其转化为可操作的洞察。项目架构。
2025-01-05 14:49:38
986
原创 day02_Spark基础
后续需要将自己编写的Spark程序提交到相关的资源平台上,比如说: local yarn spark集群(standalone)默认配完环境后只有node1有,当node2,node3运行spark_on_yarn程序的时候,会自动从hdfs下载对应的jar包。这两种方式的本质区别, Spark为了方便任务的提交操作,专门提供了一个用于进行任务提交的脚本文件: spark-submit。相比原理hadoop集群,需要多启动一个spark的自己的历史服务,它是依赖hadoop的历史服务的!
2025-01-03 11:57:13
674
原创 1555. 银行账户概要
SQL 聚合函数:掌握SUM函数用于计算每个用户的支付和收款总额。多表连接:理解LEFT JOIN的使用场景,确保所有用户都被包含在结果中。条件判断:熟悉CASE WHEN语句的使用,用于根据条件返回不同的值。UNION ALL:了解UNION ALL的作用,用于合并多个查询结果。分组计算:掌握GROUP BY的使用,用于按用户ID和用户名分组计算总信用额度。
2025-01-02 21:49:47
1069
原创 day01_Spark基础
简单来说,Spark是大数据领域的“速度与激情”,它是一个快速的通用引擎,用于大规模数据处理。具体而言,Spark是一个开源的分布式计算系统,它提供了强大的API,支持Java、Scala、Python和R等多种编程语言。Spark的核心在于其内存计算能力,这使得它在处理数据时比传统的磁盘存储计算方式要快得多。它适用于各种数据处理任务,包括批处理、实时流处理、机器学习和图处理等。
2025-01-02 17:50:42
1251
原创 目前免费_5大‘o1‘系列_推理测评_4国产_力扣题目
文章目录测评_模型_名单4国产1国外第一题标题难度、标签、提示等信息任务描述 Write an API that generates fancy sequences using the append, addAll, and multAll operations. Implement the Fancy class:示例1解释 ```Fancy fancy = new Fancy(); fancy.append(2); // fancy sequence: [2] fancy.addAll(3);
2025-01-01 19:59:41
981
原创 14_业务分析介绍&15_Python报表自动化&18_AB测试实战&19_用户偏好分析和TGI&20_同期群分析
掌握数据指标的概念知道常见的业务指标含义知道业务分析常用方法论知道通过数据分析能够解决哪些业务问题在之前的课程中,我们学习了FineReport, FineBI, SQL, Python, 它们都属于数据分析要用到的工具,接下来我们就要结合业务场景,综合运用这些工具,来完成一些具体任务。数据分析/大数据分析的目的是为了用数据驱动运营,用数据驱动业务增长(数据驱动设计,数据驱动决策,数据驱动XXX……),
2024-12-31 12:05:01
1262
原创 03_Python高级语法与正则表达式
迭代器(Iterator)是 Python 中的一种对象,用于在数据集合中逐个访问元素,而不需要暴露数据集合的底层实现。它提供了一种遍历集合元素的标准方式,适用于任何支持迭代的数据结构,如列表、元组等,range()就是一个迭代器迭代器是一个实现了iter() 和next() 方法的对象,使得可以逐步遍历它的元素。特点:手动管理:需要显式地实现iter() 和next() 方法。状态管理:迭代器需要自己管理迭代的状态,包括当前位置和结束条件。
2024-12-31 11:30:02
1053
原创 02_多任务编程_Python进程和线程
多任务是指在同一时间内执行多个任务。例如: 现在电脑安装的操作系统都是多任务操作系统,可以同时运行着多个软件。① 线程是依附在进程里面的,没有进程就没有线程。② 一个进程默认提供一条线程,进程可以创建多个线程。
2024-12-31 11:23:11
1056
原创 01_网络编程_计算机网络及TCP网络应用程序开发
网络就是将具有独立功能的多台计算机通过通信线路和通信设备连接起来,在网络管理软件及网络通信协议下,实现资源共享和信息传递的虚拟平台。思考一个问题,当我们在计算机中使用微信和你心中那个“她”聊天时,信息是如何精准的传递到她的计算机中的呢?答:是通过计算机的IP地址来实现的,IP地址是分配给网络设备上网使用的数字标签,它能够标识网络中唯一的一台设备,好比现实中每个人都有一个手机号。
2024-12-31 10:36:48
894
原创 解决安装重启后没有图标问题
文章目录解决图标不显示问题方式1: 重启电脑,大多数能解决方式2: 重启后还不行,修改注册表win+R 输入regedit.exe 打开注册表修改注册表最后重启一下任务管理器就ok啦解决图标不显示问题方式1: 重启电脑,大多数能解决方式2: 重启后还不行,修改注册表win+R 输入regedit.exe 打开注册表修改注册表按照以下层次找到“ HKEY_LOCAL_MACHINE–>SOFTWARE–>Microsoft–>Windows–>Current
2024-12-30 22:06:14
311
原创 Git版本控制
知识点02:项目开发中的版本问题举例:你在大学中写论文问题2:如果我让别人帮我写,我自己也写,我想将别人写的部分和我写的部分合并怎么办?问题:所有的操作都在手动管理,极其容易出现错误项目开发会存在同样的问题如何实现多个人共同开发一个项目,能将项目的多个版本进行自由方便的管理项目版本管理工具:能自动的将多个版本进行管理存储,类似于快照,多个人共享版本Git诞生:分布式项目管理工具,目前整个行业内最流行最受欢迎的项目版本管理工具Linux的创始人Linux诞生以后,全球很多开发者开发了 很多个版本的Li
2024-12-30 22:01:06
879
原创 Python数据分析_Pandas_日期类型处理_7
概述和其它语言类似, Python内置了datetime对象,可以在datetime库中找到pandas的日期时间类型默认是 datetime64[ns]实例代码Python中的-日期时间类型# 导包from datetime import datetime # 这个是原生Python包的内容# 场景1: 演示Python中的 日期时间类型# 1. 获取当前时间# 2. 可以手动设置日期.# 3. 计算两个日期差.Pandas中的-日期时间类型# 1. 加载: 疫情期间的 埃博拉数据.
2024-12-30 21:13:45
881
原创 Python数据分析_RFM案例_6.2
会员价值度用来评估用户的价值情况,是区分会员价值的重要模型和参考依据,也是衡量不同营销效果的关键指标之一。价值度模型一般基于交易行为产生,衡量的是有实体转化价值的行为。常用的价值度模型是RFMRFM模型是根据会员最近一次购买时间R(Recency)购买频率F(Frequency)购买金额M(Monetary)计算得出RFM得分通过这3个维度来评估客户的订单活跃价值,常用来做客户分群或价值区分RFM模型基于一个固定时间点来做模型分析,不同时间计算的的RFM结果可能不一样RFM。
2024-12-29 20:52:30
866
原创 Python数据分析_Pandas_分组_会员数据分析_6.1
在实际生产场景中,比如销售数据分析,透视表可以帮助快速识别最畅销的产品、最佳销售时段或最有效的销售渠道,从而为决策提供直观的数据支持。总之,透视表是数据探索和报告制作中的得力助手,它能够帮助用户从复杂的数据集中提炼出关键信息,以高效、灵活的方式展现数据分析的结果,助力于洞察趋势和制定策略。简单来说,透视表是数据分析中的“变形金刚”,它能将繁琐的数据表格转换成清晰、动态的汇总视图,让数据背后的故事一目了然。df.groupby([“分组列名”])[“聚合列名”].聚合函数()计算每个月 线上线下的会员增量。
2024-12-29 20:46:44
796
原创 Python数据分析_Pandas_分组_5
apply自定义函数向量化函数及Lambda表达式分组操作相关分组聚合分组转换分组过滤DataFrameGroupBy对象介绍概述当Pandas自带的API不能满足需求, 例如: 我们需要遍历的对Series中的每一条数据/DataFrame中的一列或一行数据做相同的自定义处理, 就可以使用Apply自定义函数apply函数可以接收一个自定义函数, 可以将DataFrame的行/列数据传递给自定义函数处理。
2024-12-27 20:43:17
544
原创 Python数据分析_Pandas_数据组合和缺失值处理_4
简介好多数据集都含缺失数据。缺失数据有多重表现形式数据库中,缺失数据表示为NULL在某些编程语言中用NA表示缺失值也可能是空字符串(’’)或数值在Pandas中使用NaN表示缺失值NaN,NAN,nan,他们都一样缺失值和其它类型的数据不同,它毫无意义,NaN不等于0,也不等于空串数据中出现缺失值是很常见的计算的过程中, 两个表join 可能会有缺失原始的数据中也有可能直接带着缺失值数据处理和模型训练的时候, 有很多场景要求必须先把缺失值处理掉,想处理缺失值先要在数据中找到缺失值。
2024-12-26 21:01:24
1124
原创 Python数据分析_Pandas_数据分析入门_3
DataFrame读写文件DataFrame加载部分数据DataFrame分组聚合计算DataFrame常用排序方式DataFrame案例-链家数据分析。
2024-12-25 19:47:33
1000
文字生成视频-可灵1.6
2025-01-04
文字生成视频-可灵1.6
2025-01-04
文字生成图片-可灵1.6
2025-01-03
文字生成图片-可灵1.6
2025-01-03
文字生成视频-动漫-pix
2025-01-02
文字生产视频-可灵1.6
2025-01-02
文字生成视频-动漫-pix
2025-01-02
文字生成视频-可灵1.6
2025-01-02
文字生成视频-动漫-pix
2025-01-02
文字生产视频-可灵1.6
2025-01-02
图片生成视频-可灵1.6
2025-01-01
图片生成视频-PixVerseV3.5
2024-12-31
图片生成视频-可灵1.5
2024-12-31
图生视频-动漫-国产模型
2024-12-31
文字生成视频-3D-爱诗科技
2024-12-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人