多刷亿点题⑧-CSDN博客

原创多指标进行关联性分析

设置动态关联性强弱：这种方法能够根据数据的分布情况动态地划分出不同等级，而不是固定使用预先设定的阈值。指标大多分为年指标、月指标、日指标。虽然指标的时间维度不统一时可以进行关联性分析，但为了确保分析的准确性和可靠性，建议对数据进行适当的预处理，并谨慎解释分析结果。缺失值的处理在此就不过多赘述，主要讲一下时间维度的统一，在项目中往往存在不同的指标时间维度不一致的情况，对此需要进行处理。在进行关联性分析前将数据转换为统一的时间尺度，如日、周、月或年，以便进行分析。带上每个指标的四分位数的代码。

2024-03-29 15:51:18 806

原创机器学习之线性回归的改进-岭回归

Ridge方法相当于SGDRegressor(penalty=‘l2’, loss=“squared_loss”),只不过SGDRegressor实现了一个普通的随机梯度下降学习，推荐使用Ridge(实现了SAG)岭回归，其实也是一种线性回归。只不过在算法建立回归方程时候，加上正则化的限制，从而达到解决过拟合的效果。观察正则化程度的变化，对结果的影响？

2024-03-18 16:45:21 559

原创过拟合欠拟合

当算法在某个数据集当中出现这种情况，可能就出现了过拟合现象。1、什么是过拟合与欠拟合。

2024-03-18 16:40:38 436

原创机器学习——线性回归

既然存在了这个损失，我们一直说机器学习有自动学习的功能，在线性回归这里更是能够体现。这里可以通过一些优化方法去优化（其实是数学当中的求导功能）回归的总损失！线性回归（Linear regression）是利用回归方程（函数）对一个h或多个自变量(特征值）和因变量（目标值）之间进行建模的一种分析方式。对于一个常数值的学习率来说，可以使用learning_rate=’constant’ ，并使用eta0来指定学习率。像这样，特征值和目标值之间建立了一个关系，这个关系可以理解为线性模型。线性关系一定是线性模型。

2024-03-18 16:23:49 1259

原创当word表格复制到excel出现分行问题的解决小技巧

全选复制粘贴到excel中后分行问题已经解决，将////换回原本的回车即可，ctr+shift+j（回车）在word文档中将^p（回车符号）替换成其他，比如////

2024-03-14 15:13:12 2749

原创朴素贝叶斯算法基础——案例：对新闻进行分类

Ni：F1词在C类别所有文档中出现的次数。N：所属类别C下的文档所有词出现的次数和。应用场景：文本分类（单词作为特征）朴素：假设特征与特征之间相互独立。m：训练文档中统计出的特征词个数。朴素贝叶斯算法：朴素+贝叶斯。3、特征工程——文本特征抽取。a：指定的系数一般为1。4、朴素贝叶斯算法的。

2024-03-13 15:03:25 1209

原创 KNN算法对鸢尾花进行分类：添加网格搜索和交叉验证

优化——添加网格搜索和交叉验证。

2024-03-13 13:59:17 882

原创用KNN算法进行鸢尾花分类

K-近邻算法（K Nearest Neighbor)KNN算法的核心思想：你的“邻居”来推测你的类别。K值取得过小，容易受到异常点的影响。K值取得过大，受样本不均衡的影响。算法对鸢尾花进行分类的步骤。

2024-03-12 17:58:20 643

原创机器学习的基础学习笔记

其中机器学习是使计算机系统能够通过学习经验和数据来改进性能。机器学习算法能够从数据中发现模式，并使用这些模式来做出预测或做出决策，而不需要明确的编程。大家常说的人工智能、机器学习、深度学习其实是包含关系，深度学习是机器学习的一种特殊方法，而机器学习又是人工智能的一个子领域。机器学习可以分为监督学习和无监督学习两类。根据目标值可以将机器学习分类。数据集结构：特征值+目标值。

2024-03-10 21:48:46 710

原创决策树原理和代码

一但构建好了决策树，那么分类或者预测任务就很简单了，只需要走一遍就可以了，那么难点在于如何构建出来一棵树，这需要考虑很多问题。目标：通过一种衡量标准，来计算通过不同特征进行分支选择后的分类情况，找出来最好的那个当成根节点，以此类推。显然A集合的熵值要低，因为A里面只有两种类别，相对稳定一些，而B中类别太多了，熵值就会大很多。训练阶段：从给定的训练集构建出一棵树（从根节点开始选择特征，如何进行特征切分）限制深度，叶子节点个数，叶子节点样本数，信息增益量等。预剪枝：边建立决策树边进行剪枝的操作（更实用）

2024-03-07 15:12:54 401

原创 python三剑客之一——Numpy

一个强大的N维数组对象ndarray【N+d（Dimension维度）+array】温故而知新，借着工作需要用到Numpy的机会重新学习一遍Numpy。整合C/C++/Fortran代码的工具。线性代数、傅里叶变换、随机数生成等功能。

2024-03-04 16:44:49 1779

原创 SQL数据插入的几种类型

2、数据为其他表select数据。

2024-03-01 16:22:50 490

原创 SQL的书写顺序和执行顺序

左书写顺序，右注释为执行顺序。

2024-03-01 11:16:59 387

原创开发中常用的字段更新时间（sql）

存在意义：可以据此知道相关脚本最后一次的运行时间。

2024-02-28 16:10:29 879

原创开发中常用的sql语句cast的使用

假设有一张学生表students，其中一个入学时间st_date字段，它的数据类型是varchar(255)，格式为yyyy-mm-dd，现在要对这个日期进行相关计算，但是它是字符串类型，我们不能直接计算。因此我们需要将字段类型修改。

2024-02-28 14:51:48 566

原创开发中常用的sql语句case的使用

学生表students中有分数score，现按分数评级，60分以下D，60-80分C，80-90分B，90-100分A。

2024-02-27 17:08:12 376

原创什么是数据湖？

数据湖是一种存储大规模非结构化和结构化数据的系统，通常用于存储原始的、未经加工的数据，以便进一步分析和处理。数据湖的设计目的是为了能够快速地存储各种类型的数据，包括传统的结构化数据、文本、图片、音频、视频等，而无需预先定义数据模式或结构。数据湖通常建立在分布式存储系统之上，能够容纳海量数据并支持高性能的数据访问和分析。产生了数据孤岛的问题，数据之间想要互相调用的话会比较麻烦，因此提出了数据湖。数据湖不同于数仓的是将结构化数据和非结构化数据都存储到“湖”里。hbase：非结构化半结构化数据。

2024-02-27 10:27:37 378

原创常用的大数据框架

它可以处理大量的数据，并支持分布式计算。Hive 是一个基于 Hadoop 的数据仓库框架，它提供了类 SQL 查询语言 HiveQL，可以让开发者在 Hadoop 集群上进行数据分析和查询。大数据框架是一组用于处理大数据的技术和工具的集合，它们可以支持大规模数据处理、存储和分析。Flink 是一个流式数据处理框架，它支持有界和无界数据流处理，并提供了低延迟和高吞吐量的实时数据处理能力。这些框架都有自己的特点和适用场景，开发者可以根据自己的需求和技能选择合适的框架。

2024-02-26 14:05:41 1485 1

原创工作中运维常用的sql语句

(table) 表名;

2024-02-26 13:52:01 1185 1

原创 Spark和Flink的异同

总的来说，Spark适用于离线和批处理任务，具有强大的生态系统和快速的内存计算能力；而Flink则更适用于实时流处理，并具备更强大的容错、状态管理和事件时间处理能力。选择哪个框架取决于您的具体需求和场景。Spark和Flink是两个流行的分布式数据处理框架，它们都旨在处理大规模数据集和复杂的数据处理任务。

2023-12-22 10:51:34 798

原创【尚学堂】Mysql基础复习

功能：类似于Java中的方法好处：提高重用性和隐藏实现细节调用：select 函数名(实例列表);

2023-12-07 11:18:46 281

原创 MySQL的常见命令

2023年12月重新复习。

2023-12-04 16:48:50 118

原创什么是key value数据库？

键值数据库将数据存储为键值对集合，其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容，且不同数据行的value的类型可以完全不同。由于record之间通常没有关联，键值数据库是高度可分区的。Redis是一个非常流行的Key-Value数据库，它支持丰富的数据结构，并且具有持久化、高速读取/写入等特性。key value数据是非关系型数据库，它使用简单的键值方法来存储数据。

2023-12-04 15:35:05 632

原创大数据MaxCompute教程（阿里云离线数仓项目）学习笔记20231128

MaxCompute 是面向分析的企业级SaaS模式云数据仓库，以Serberless框架提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。MaxCompute和DataWorks一起向用户提供完善的ETL和数仓管理能力，以及SQL、MR、Graph等多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，能降低企业成本，保障数据安全。盘古👉Hadoop中的HDFS。存储集群存储集群存储集群。

2023-11-28 15:00:05 374

原创大数据MaxCompute教程（阿里云离线数仓项目）学习笔记20231127

是为企业所有决策制定过程，提供所有系统数据支持的战略集合。AI：数据仓库是一个大型、集中、主题导向的数据库系统，用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据，并将其在一个可查询的数据模型中进行了整合和转换，以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载（ETL）的过程，以保证数据的准确性、一致性和完整性。数据仓库有助于企业在从历史数据中发现趋势、分析业务绩效和制定策略时更加高效和精确。数据仓库VS传统数据存储。

2023-11-27 15:02:23 1300 1

原创 MySQL中符号@的作用

用select语句时，只能用”:=“方式，因为select语句中，”="号被看作是比较操作符。对该用户变量进行赋值.有两种方式: 一种是直接用"=“号，另一种是用”:=“号。(SELECT @i:=0) AS j 代表建立一个临时表，j是随便取的表名，但。使用set命令对用户变量进行赋值时，两种方式都可以使用；(@i:=@i+1)代表定义一个变量，每次叠加1；@变量名 : 定义一个用户变量.1，增加临时表，实现变量的自增。

2023-11-20 10:45:30 1609 1

原创 SQL中 limit 和 offset 的用法

例如，SELECT * FROM table LIMIT 10, 5将返回查询结果中的第11至第15条记录。LIMIT offset,count：在这种形式中，offset表示从查询结果中的第几行开始返回数据，count表示返回的记录数。正整数表示从查询结果的起始位置开始返回数据，负整数表示从查询结果的末尾位置开始返回数据。±------------±-----+ 在 SQL 中，id 是这个表的主键。在知道 limit 和 offset 的用法之前，我第一反应是用窗口函数排序，然后取rank第二的值。

2023-11-17 16:59:44 1976 1

简单的记录一下