自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(208)
  • 收藏
  • 关注

原创 LLM精度

格式位数内存占用(7B模型)主要优点主要缺点典型应用FP3232~28 GB精度高,稳定性好内存大,速度慢标准训练,基准测试FP1616~14 GB速度快,内存减半易数值溢出混合精度训练,推理BF1616~14 GB范围同FP32,不易溢出精度较低大规模模型训练INT88~7 GB内存极小,推理极快精度损失风险大资源受限的推理。

2025-09-27 14:51:15 525

原创 大语言模型(LLM)类型概述

🍋🍋🍋🍋大语言模型 (英文:Large Language Model,缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言. 大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等.通常, 大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型),这些参数是在大量文本数据上训练的,例如模型 GPT-3、ChatGPT、PaLM、BLOOM和 LLaMA等.

2025-09-25 21:55:45 467

原创 AI模型压缩-详解

🍋🍋AI学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞模型压缩的四种主流技术:Pruning 剪枝:Quantization 量化:Knowledge distillation 知识蒸馏:Low-rank factorization 低秩因式分解:实际部署的时候需要一些模型加速的方法,每种框架除了fp32精度外,都支持了int8的精度,而量化到int8常常可以使我们的模型更小更快,所以在部署端很受欢迎

2025-09-17 21:28:19 685

原创 Transformer架构(详解)

🍋🍋🍋🍋:将输入序列压缩成一个富含语义信息的。:根据这个上下文矩阵,像“猜谜”一样,一步步自回归地生成目标序列。

2025-09-06 19:52:14 813

原创 Attention机制(详解)

🍋🍋🍋🍋。

2025-08-28 21:00:45 831

原创 CNN卷积神经网络

相当于拿着放大镜在图片上面移动,每一次滑动就会记录下区域多像“垂直线”或者“圆弧”,最终形成一张“显线索热度图”,->这就是特征图。因为线索太多,而且很多都是重复的,需要进行降维。这样就需要(pooling),只保留每个区域最明显的线索,其它的不要。🎯 结果:特征图变小了(分辨率降低),但关键信息还在,而且计算量大大减少!🧩经过上述两步:现在,第二波更高级的探员入场!他们不再看“线”,而是看“组合形状他们用第一层输出的“边缘图”作为输入开始寻找:“这个区域有没有像‘猫眼睛’的组合?或者:“

2025-08-22 22:03:00 1099

原创 神经网络(激活函数)

🍋🍋🍋🍋。

2025-08-11 21:04:47 695

原创 神经网络(正向传播与反向传播)

在正向传播过程中:1.首先从输入层到隐藏层经过线性变换得到输出值Z,再将输出值经过应用激活函数得到该层的的激活输出A。二分类问题:Sigmoid 激活函数,其输出范围为 (0, 1),适合表示概率。多分类问题:Softmax 激活函数,用于将多个输出值转换为概率分布。回归问题:可能不使用激活函数或使用线性激活函数。最终计算得到最后一层的输出,也就是我们的预测值。

2025-08-10 20:01:14 864

原创 大数据(7)-flume

Event输入/输出速率(event.received.count / event.delivered.count)Multiplexing Channel Selector:根据Header路由到指定Channel。Replicating Channel Selector:复制到所有Channel。Channel填充率(channel.capacity.percentage):通过Channel Selector确定写入哪个Channel。:Sink处理成功后通知Channel删除Event。

2025-07-01 17:27:16 1039

原创 大数据(6)-flink

Source: 数据源,Flink 在流处理和批处理上的 source 大概有 4 类:基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自定义的 source。Flink的所有操作都称之为Operator,客户端在提交任务的时候会对Operator进行优化操作,能进行合并的Operator会被合并为一个Operator,合并后的Operator称为Operator chain,实际上就是一个执行链,每个执行链会在TaskManager上一个独立的线程中执行。

2025-07-01 14:52:51 956

原创 大数据(5)-数仓

ods:operation data store原始数据层, 数据保持原貌不做处理,ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响dmi:公共维度层 公共维度层由维度表构成,基于维度建模理念,建立整个企业的一致性维度。dwd:data warehouse detail明细数据层 结构和粒度与原始表保持一致,通过维表与ods层数据进行清洗关联得到(去除空值,脏数据) 是业务层与数据仓库的隔离层dws:data warehouse service数据服务层 数据轻度汇总。

2025-07-01 08:00:00 694

原创 大数据(4)-spark

Spark,是一种通用的大数据计算框架,也正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等,Spark包含了大数据领城常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MILlib用于机器学习,Spark GraphX用于图计算。而spark计算过程可以分为n个阶段,因为他是内存迭代式的,我们在处理完一个阶段之后,可以继续往下处理很多阶段,而不是两个阶段。

2025-06-30 20:17:35 1093 1

原创 大数据(3)-Hive

Hive是基于Hadoop的数据仓库工具。可以用于存储在Hadoop集群中的HDFS文件数据集进行数据整理、特殊查询和分析处理。Hive提供了类似于关系型数据库SQL语言的HiveQL工具,通过HiveQL可以快速实现简单的MapReduce统计。Hive的本质就是将HiveQL语句转换为MapReduce任务后运行,非常适合做数据仓库的数据分析。

2025-06-30 20:16:44 1132

原创 大数据(2)-yarn

YARN(Yet Another Resource Negotiator)是Apache Hadoop生态系统中的一个组件,用于管理和调度分布式应用程序。它提供了一个可扩展的框架,用于处理大规模数据和分布式计算任务。YARN的主要目标是提供更高效、灵活和可扩展的资源管理,以满足Hadoop生态系统中的各种应用程序需求。YARN的核心思想是将资源管理和作业调度从特定的计算框架(如MapReduce)中分离出来使其成为单独的。

2025-06-30 18:01:10 670

原创 大数据(1)-hdfs&hbase

1.NameNode 负责客户端请求的响应 元数据的管理(查询,修改) namenode是HDFS集群主节点,负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息(block的id,及所在的datanode服务器)的集合,它是基本的访问控制单元。时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引, HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留(这是和HDFS只允许追加不允许修改的特性相关的)

2025-06-30 17:43:35 941

原创 大数据学习(141)-分布式数据库

数据按列族(Column Family)存储,适合稀疏数据。

2025-06-19 16:45:02 869

原创 大数据学习(140)-数仓概述分析

数据仓库 Data Warehouse,是为企业所决策制定过程,提供所有支持类型的数据集合。用于分析性报告和决策支持。数仓是一个面向主题、集成的、相对稳定、反映历史变化的数据集合,随着大数据技术的发展,其作用不再局限于决策分析、还可以为业务应用、审计、追踪溯源等多方面提供数据支撑,帮助企业完成数字化转型。ods:operation data store原始数据层, 数据保持原貌不做处理,ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响。

2025-06-18 19:42:14 1210

原创 大数据学习(139)-数仓设计

【代码】大数据学习(139)-数仓设计。

2025-06-12 17:36:15 853

原创 大数据学习(137)-大数据组件运行时角色

HDFS 中的 NameNode 元数据管理和 Hive 中的 Metastore 元数据在功能上虽然都涉及“元数据”,但两者的。:NameNode 类似于图书馆的目录系统,记录所有书籍的位置;DataNode 类似于书架,存放实际的书籍。TaskManager 类似于车辆,执行具体的运输任务。Executor 类似于工人,执行具体的任务。TaskTracker 类似于工人,执行具体的任务。:Hive 类似于一个翻译官,将 SQL 查询翻译为底层计算引擎能理解的任务。

2025-06-12 16:40:07 1066

原创 大数据学习(138)-Hive数据分析3

计算每个商品在不同促销活动下的加权平均销量(权重为活动持续天数)。:将用户标签(每行一个标签)转为列(每个标签一列)。:查询每个部门薪资最高且入职最早的前 2 名员工。:检测用户登录记录中连续缺失超过 3 天的区间。:识别用户每周固定某天的登录习惯(如每周三)。:计算用户每次登录后 24 小时内的消费总额。:计算每个用户最近 5 次登录的平均停留时长。:为每个用户找到距离最近的 3 个服务点。:查询每个部门薪资前 10% 的员工。:计算每个区域及其子区域的总销售额。:计算每小时的平均请求数。

2025-06-12 10:59:23 1265

原创 大数据学习(136)-数据埋点

我们做产品、做运营,都离不开数据分析,而做数据分析的前提,是我们保存了用户行为数据。埋点,就是将我们关心的数据保存下来的技术。数据埋点是一种常用的数据采集方法,是数据产品经理、数据运营以及数据分析师,基于业务需求或产品需求对用户在应用内产生行为的每一个事件对应的页面和位置植入相关代码,并通过采集工具上报统计数据,以便相关人员追踪用户行为和应用使用情况,推动产品优化或指导运营的一项工程。

2025-06-10 18:07:23 1071

原创 大数据学习(135)-Linux系统性指令

【代码】大数据学习(135)-Linux系统性指令。

2025-06-09 17:20:51 968

原创 大数据学习(134)-数据分析函数对比对比 range between ... and ... range between ... and ... 与 rows between ... and ...

🍋🍋🍋🍋在SQL窗口函数中,和都用于定义窗口框架(window frame),但它们在确定窗口范围的方式上有重要区别。

2025-06-09 10:56:57 204

原创 大数据学习(133)-Hive数据分析2

通过事件时间间隔划分会话,间隔超过阈值则视为新会话(如 30 分钟无操作)。递归 CTE 处理树状结构数据(如部门层级、类目层级)。:计算 2023 年各月销售额同比 2022 年的增长率。结合聚合函数,按多个维度(如时间、地区、品类)交叉统计。过滤实现抽样(如抽取 10% 数据)。:计算用户两次登录的时间间隔(分钟)。获取相邻行的时间值,计算时间间隔。按阶段过滤用户,计算各阶段转化率。:计算注册→浏览→下单的漏斗转化率。:按年份、地区统计各品类销售额占比。:计算每个用户的会话数及会话时长。

2025-06-08 16:18:54 894

原创 大数据学习(132)-HIve数据分析

​​​​🍋🍋🍋🍋。

2025-06-06 16:44:57 1184

原创 大数据学习(131)-Hive数据分析函数总结

datepart参数决定了返回值的时间单位,可以是年(year)、季度(quarter)、月(month)、周(week)、日(day)、小时(hour)、分钟(minute)、秒(second)等。时间单位可以是年份 (YEAR)、月份 (MONTH)、日期 (DAY)、小时 (HOUR)、分钟 (MINUTE)、秒钟 (SECOND) 等等。如果省略,默认值为 1。例如,有3条排在第1位时,排序为:1,1,1,4······例如,有3条排在第1位时,排序为:1,1,1,2······

2025-06-06 16:12:26 547

原创 大数据学习(130)-zookeeper

​​​​🍋🍋🍋🍋。

2025-06-04 20:35:26 798

原创 大数据学习(129)-Hive数据分析

找出消费金额超过 90% 用户的 “超级用户”,并计算其总消费占比。,若有并列则跳过后续排名(如两个第 1 名后,下一名为第 3 名)。划分为不同会话(session),并计算每个会话的持续时间。计算相邻事件的时间差,超过阈值则标记为新会话。(如 “电子产品> 手机 > 智能手机”)。(如用户 A 先买了手机,后买了手机壳)。(即该用户消费超过了百分之多少的用户)。预分区,减少 JOIN 时的数据移动。计算每个用户的消费金额在全量用户中的。,包括无活动的日期(用 0 填充)。为 JSON 数组(如。

2025-06-04 18:59:33 1701 1

原创 大数据学习(128)-数据分析实例

(首日登录后,次日 / 7 日仍登录的用户比例)。(最近购买时间 R、购买频率 F、消费金额 M)。(同订单中同时出现的频率最高)。的用户及其最长连续登录天数。,并按年同比增长排序。

2025-06-04 13:41:37 967

原创 大数据学习(127)-hive日期函数

【代码】大数据学习(127)-hive日期函数。

2025-06-02 21:24:52 1149

原创 大数据学习(126)-窗口函数范围

🍋🍋大数据学习🍋🍋🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞在 SQL 中,窗口范围(Window Frame)通过 子句的 、 或 关键字定义,用于确定聚合函数操作的数据子集。以下是详细解析:窗口范围的三种模式1. 模式基于 物理行号 确定范围,不考虑值的差异。 示例: 2. 模式基于 逻辑值范围 确定范围,适用于日期、数值等有序字段。示例(日期字

2025-06-01 11:53:32 567

原创 大数据学习(125)-hive数据分析

(活跃 = 当月有登录,流失 = 连续 3 个月未登录)。(0 = 未登录,1 = 登录),包括缺失的日期。,并找出间隔超过 30 天的用户。的用户(不允许更长的连续区间)。(假设会话间隔为 30 分钟)。(假设表中仅记录登录日期)。

2025-05-29 20:25:16 926

原创 大数据学习(124)-spark数据倾斜

scala// 实现自定义分区器,将倾斜键分散到不同分区// 对倾斜键进行哈希分散} else {// 非倾斜键使用默认分区math.abs(strKey.hashCode) % (partitions / 10) // 减少非倾斜键分区数// 使用自定义分区器。

2025-05-29 18:07:55 995

原创 大数据学习(123)-hive压缩与存储方式

🍋🍋🍋🍋Hive 作为大数据领域常用的数据仓库工具,其压缩与存储方式的选择对存储成本、查询性能有直接影响。Hive 支持多种压缩算法,通过减少数据体积优化存储和传输效率。

2025-05-27 09:45:30 392

原创 大数据学习(122)-分区与分桶表

维度分区(Partition)分桶(Bucket)组织方式按列值划分目录(如按日期分目录)按哈希值分散到固定数量的文件中(如000000_0000001_0主要目的减少查询扫描范围(如快速定位某日期数据)优化JOIN/GROUP BY性能(通过减少数据倾斜)列选择通常选择高筛选性的列(如日期、地区)选择分布均匀的列(如用户ID、订单号)数量灵活性可动态增减(如添加新分区)数量固定(需预先定义,修改复杂)数据倾斜可能加剧倾斜(如某分区数据量过大)缓解倾斜(通过哈希均匀分布)

2025-05-26 20:33:25 767

原创 大数据学习(121)-hive数据分析重点问题

"在电商订单表中,我们冗余存储了用户姓名,因为订单查询时 90% 的场景需要展示用户信息,这样能减少 JOIN 操作,提升查询速度。通过灵活组合窗口函数、窗口子句和索引优化,可高效解决各类复杂数据分析需求,提升 SQL 查询的表达能力和执行效率。"我会先分析执行计划,若发现全表扫描,优先添加索引;窗口函数是 SQL 中处理复杂数据分析的强大工具,常用于排名、累计计算、同比环比等场景。:若查询仅需窗口函数结果,可创建覆盖索引避免回表。,聚焦高频考点中的易错点和细节差异,覆盖。:计算近 3 天的平均订单量。

2025-05-26 17:01:38 1806 2

原创 大数据学习(120)-partition by 与 group by区别

的核心差异,结合具体业务场景选择合适的方法,可大幅提升 SQL 编写效率和查询性能。:计算每个部门的累计工资(按工资升序)。:统计每个部门的员工数量和平均工资。:查询每个部门的员工及其工资排名。:计算每个月的销售额环比增长率。不会合并行,若需去重需配合。:计算每个部门的总工资。

2025-05-26 16:35:08 921

原创 大数据学习(119)-Linux解压缩指令总结

【代码】大数据学习(119)-Linux解压缩指令总结。

2025-05-26 14:42:34 462

原创 大数据学习(118)-SQL总结

🍋🍋🍋🍋在 SQL 面试中,JOIN是高频考点,面试官通常会考察对不同连接类型的理解、应用场景、性能优化以及关联条件的逻辑。

2025-05-25 17:15:21 1991

原创 大数据学习(117)-kafka

Apache Kafka是分布式发布-订阅消息系统,在 kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。几种分布式系统消息系统的对比:推荐相关文章:各消息队列对比,Kafka深度解析,众人推荐,精彩好文!

2025-04-30 16:05:20 1067

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除