自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 多指标进行关联性分析

设置动态关联性强弱:这种方法能够根据数据的分布情况动态地划分出不同等级,而不是固定使用预先设定的阈值。指标大多分为年指标、月指标、日指标。虽然指标的时间维度不统一时可以进行关联性分析,但为了确保分析的准确性和可靠性,建议对数据进行适当的预处理,并谨慎解释分析结果。缺失值的处理在此就不过多赘述,主要讲一下时间维度的统一,在项目中往往存在不同的指标时间维度不一致的情况,对此需要进行处理。在进行关联性分析前将数据转换为统一的时间尺度,如日、周、月或年,以便进行分析。带上每个指标的四分位数的代码。

2024-03-29 15:51:18 352

原创 机器学习之线性回归的改进-岭回归

Ridge方法相当于SGDRegressor(penalty=‘l2’, loss=“squared_loss”),只不过SGDRegressor实现了一个普通的随机梯度下降学习,推荐使用Ridge(实现了SAG)岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果。观察正则化程度的变化,对结果的影响?

2024-03-18 16:45:21 479

原创 过拟合欠拟合

当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。1、 什么是过拟合与欠拟合。

2024-03-18 16:40:38 384

原创 机器学习——线性回归

既然存在了这个损失,我们一直说机器学习有自动学习的功能,在线性回归这里更是能够体现。这里可以通过一些优化方法去优化(其实是数学当中的求导功能)回归的总损失!线性回归(Linear regression)是利用回归方程(函数)对一个h或多个自变量(特征值)和因变量(目标值)之间进行建模的一种分析方式。对于一个常数值的学习率来说,可以使用learning_rate=’constant’ ,并使用eta0来指定学习率。像这样,特征值和目标值之间建立了一个关系,这个关系可以理解为线性模型。线性关系一定是线性模型。

2024-03-18 16:23:49 1185

原创 当word表格复制到excel出现分行问题的解决小技巧

全选复制粘贴到excel中后分行问题已经解决,将////换回原本的回车即可,ctr+shift+j(回车)在word文档中将^p(回车符号)替换成其他,比如////

2024-03-14 15:13:12 793

原创 朴素贝叶斯算法基础——案例:对新闻进行分类

Ni:F1词在C类别所有文档中出现的次数。N:所属类别C下的文档所有词出现的次数和。应用场景:文本分类(单词作为特征)朴素:假设特征与特征之间相互独立。m:训练文档中统计出的特征词个数。朴素贝叶斯算法:朴素+贝叶斯。3、特征工程——文本特征抽取。a:指定的系数一般为1。4、朴素贝叶斯算法的。

2024-03-13 15:03:25 1042

原创 KNN算法对鸢尾花进行分类:添加网格搜索和交叉验证

优化——添加网格搜索和交叉验证。

2024-03-13 13:59:17 807

原创 用KNN算法进行鸢尾花分类

K-近邻算法(K Nearest Neighbor)KNN算法的核心思想:你的“邻居”来推测你的类别。K值取得过小,容易受到异常点的影响。K值取得过大,受样本不均衡的影响。算法对鸢尾花进行分类的步骤。

2024-03-12 17:58:20 522

原创 机器学习的基础学习笔记

其中机器学习是使计算机系统能够通过学习经验和数据来改进性能。机器学习算法能够从数据中发现模式,并使用这些模式来做出预测或做出决策,而不需要明确的编程。大家常说的人工智能、机器学习、深度学习其实是包含关系,深度学习是机器学习的一种特殊方法,而机器学习又是人工智能的一个子领域。机器学习可以分为监督学习和无监督学习两类。根据目标值可以将机器学习分类。数据集结构:特征值+目标值。

2024-03-10 21:48:46 672

原创 决策树原理和代码

一但构建好了决策树,那么分类或者预测任务就很简单了,只需要走一遍就可以了,那么难点在于如何构建出来一棵树,这需要考虑很多问题。目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点,以此类推。显然A集合的熵值要低,因为A里面只有两种类别,相对稳定一些,而B中类别太多了,熵值就会大很多。训练阶段:从给定的训练集构建出一棵树(从根节点开始选择特征,如何进行特征切分)限制深度,叶子节点个数,叶子节点样本数,信息增益量等。预剪枝:边建立决策树边进行剪枝的操作(更实用)

2024-03-07 15:12:54 360

原创 python三剑客之一——Numpy

一个强大的N维数组对象ndarray【N+d(Dimension维度)+array】温故而知新,借着工作需要用到Numpy的机会重新学习一遍Numpy。整合C/C++/Fortran代码的工具。线性代数、傅里叶变换、随机数生成等功能。

2024-03-04 16:44:49 1711

原创 SQL数据插入的几种类型

2、数据为其他表select数据。

2024-03-01 16:22:50 415

原创 SQL的书写顺序和执行顺序

左书写顺序,右注释为执行顺序。

2024-03-01 11:16:59 354

原创 开发中常用的字段更新时间(sql)

存在意义:可以据此知道相关脚本最后一次的运行时间。

2024-02-28 16:10:29 501

原创 开发中常用的sql语句cast的使用

假设有一张学生表students,其中一个入学时间st_date字段,它的数据类型是varchar(255),格式为yyyy-mm-dd,现在要对这个日期进行相关计算,但是它是字符串类型,我们不能直接计算。因此我们需要将字段类型修改。

2024-02-28 14:51:48 377

原创 开发中常用的sql语句case的使用

学生表students中有分数score,现按分数评级,60分以下D,60-80分C,80-90分B,90-100分A。

2024-02-27 17:08:12 340

原创 什么是数据湖?

数据湖是一种存储大规模非结构化和结构化数据的系统,通常用于存储原始的、未经加工的数据,以便进一步分析和处理。数据湖的设计目的是为了能够快速地存储各种类型的数据,包括传统的结构化数据、文本、图片、音频、视频等,而无需预先定义数据模式或结构。数据湖通常建立在分布式存储系统之上,能够容纳海量数据并支持高性能的数据访问和分析。产生了数据孤岛的问题,数据之间想要互相调用的话会比较麻烦,因此提出了数据湖。数据湖不同于数仓的是将结构化数据和非结构化数据都存储到“湖”里。hbase:非结构化半结构化数据。

2024-02-27 10:27:37 335

原创 常用的大数据框架

它可以处理大量的数据,并支持分布式计算。Hive 是一个基于 Hadoop 的数据仓库框架,它提供了类 SQL 查询语言 HiveQL,可以让开发者在 Hadoop 集群上进行数据分析和查询。大数据框架是一组用于处理大数据的技术和工具的集合,它们可以支持大规模数据处理、存储和分析。Flink 是一个流式数据处理框架,它支持有界和无界数据流处理,并提供了低延迟和高吞吐量的实时数据处理能力。这些框架都有自己的特点和适用场景,开发者可以根据自己的需求和技能选择合适的框架。

2024-02-26 14:05:41 1014 1

原创 工作中运维常用的sql语句

(table) 表名;

2024-02-26 13:52:01 1044 1

原创 Spark和Flink的异同

总的来说,Spark适用于离线和批处理任务,具有强大的生态系统和快速的内存计算能力;而Flink则更适用于实时流处理,并具备更强大的容错、状态管理和事件时间处理能力。选择哪个框架取决于您的具体需求和场景。Spark和Flink是两个流行的分布式数据处理框架,它们都旨在处理大规模数据集和复杂的数据处理任务。

2023-12-22 10:51:34 635

原创 【尚学堂】Mysql基础复习

功能:类似于Java中的方法好处:提高重用性和隐藏实现细节调用:select 函数名(实例列表);

2023-12-07 11:18:46 215

原创 MySQL的常见命令

2023年12月重新复习。

2023-12-04 16:48:50 94

原创 什么是key value数据库?

键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容,且不同数据行的value的类型可以完全不同。由于record之间通常没有关联,键值数据库是高度可分区的。Redis是一个非常流行的Key-Value数据库,它支持丰富的数据结构,并且具有持久化、高速读取/写入等特性。key value数据是非关系型数据库,它使用简单的键值方法来存储数据。

2023-12-04 15:35:05 389

原创 大数据MaxCompute教程(阿里云离线数仓项目)学习笔记20231128

MaxCompute 是面向分析的企业级SaaS模式云数据仓库,以Serberless框架提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。MaxCompute和DataWorks一起向用户提供完善的ETL和数仓管理能力,以及SQL、MR、Graph等多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,能降低企业成本,保障数据安全。盘古👉Hadoop中的HDFS。存储集群 存储集群 存储集群。

2023-11-28 15:00:05 212

原创 大数据MaxCompute教程(阿里云离线数仓项目)学习笔记20231127

是为企业所有决策制定过程,提供所有系统数据支持的战略集合。AI:数据仓库是一个大型、集中、主题导向的数据库系统,用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据,并将其在一个可查询的数据模型中进行了整合和转换,以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载(ETL)的过程,以保证数据的准确性、一致性和完整性。数据仓库有助于企业在从历史数据中发现趋势、分析业务绩效和制定策略时更加高效和精确。数据仓库VS传统数据存储。

2023-11-27 15:02:23 330 1

原创 MySQL中符号@的作用

用select语句时,只能用”:=“方式,因为select语句中,”="号被看作是比较操作符。对该用户变量进行赋值.有两种方式: 一种是直接用"=“号,另一种是用”:=“号。(SELECT @i:=0) AS j 代表建立一个临时表,j是随便取的表名,但。使用set命令对用户变量进行赋值时,两种方式都可以使用;(@i:=@i+1)代表定义一个变量,每次叠加1;@变量名 : 定义一个用户变量.1,增加临时表,实现变量的自增。

2023-11-20 10:45:30 918 1

原创 SQL中 limit 和 offset 的用法

例如,SELECT * FROM table LIMIT 10, 5将返回查询结果中的第11至第15条记录。LIMIT offset,count:在这种形式中,offset表示从查询结果中的第几行开始返回数据,count表示返回的记录数。正整数表示从查询结果的起始位置开始返回数据,负整数表示从查询结果的末尾位置开始返回数据。±------------±-----+ 在 SQL 中,id 是这个表的主键。在知道 limit 和 offset 的用法之前,我第一反应是用窗口函数排序,然后取rank第二的值。

2023-11-17 16:59:44 1366 1

原创 SQL聚合函数实现滑动窗口计算

COUNT(col) - 返回所有非空值的个数。FIRST(col) - 返回第一个记录的值。LAST(col) - 返回最后一个记录的值。AVG(col) - 返回平均值。MAX(col) - 返回最大值。MIN(col) - 返回最小值。COUNT(字段) 空值不计入。SUM(col) - 返回总和。

2023-11-16 16:40:21 214 1

原创 SQL排序函数的学习

±-------------±--------+ 在 SQL 中,id是此表的主键。±------------±--------+ 在 SQL 中,id 是该表的主键。±-----------±---------±-------+ 解释:Max 和 Jim 在 IT 部门的工资都是最高的,Henry 在销售部的工资最高。±------------±--------+ 在 SQL 中,id 是此表的主键列。±-------------±--------+ | 列名 | 类型 |

2023-11-16 16:18:28 240 1

原创 DBeaver连接人大金仓数据库

URL模板:jdbc:kingbase8://{host}[:{port}]/[{database}](格式:jdbc:kingbase://IP地址:端口号/数据库名称。类名:com.kingbase.Driver;数据库/模式:sh_nasp。添加文件导入jdbc路径。默认端口:54321;驱动名称:人大金仓;

2023-11-14 14:53:39 3613 1

原创 牛客网SQL必知必会

记录一下做题过程。

2023-10-26 18:00:05 484 1

原创 SQL刷题网址

自用

2023-10-23 17:39:17 26

原创 pandas基础学习

此篇记录牛客网python数据分析的刷题过程,直接复制粘贴感觉意义不大,自己进行简略记录。使用CPP的7级用户,且他们的毕业年份不是2018,输出他们的信息。any():如果至少有一个为True,则为True。Achievement_value:成就值。query():查询,括号里输入查询条件。Num_of_exercise:刷题量。Graduate_year:毕业年份。Nowcoder_ID:用户ID。使用read_csv()获取数据。自用学习笔记,题库来源牛客网。Language:常用语言。

2023-10-13 17:49:03 43 1

原创 工作中常用的excel函数和透视表

数据透视表在excel的插入一栏,分数据透视表和推荐的数据透视表。区别是后者更智能,能根据你所选区域自动划分行值,并且能预览。2、勾选行值(也可以换成列值)一些快速填充的使用实例。快捷键:CTRL+E。

2023-10-08 15:36:03 82

原创 Mysql基础知识总结

牛客网的文章,自己整理了自己需要的部分。

2023-09-22 18:30:23 114 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除