自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 Excel中的SUMPRODUCT函数:使用方法与案例分析

SUMPRODUCT函数在Excel中是一个非常实用的工具,它可以处理复杂的数据分析任务,包括多条件求和、计数、加权求和等。通过灵活运用该函数及其与其他函数的组合,可以大大提高数据处理和分析的效率。在Excel中,SUMPRODUCT函数是一个强大的工具,它允许你将数组间对应的元素相乘,并返回乘积之和。这个函数在处理复杂数据和分析时非常有用,特别是在需要多条件求和或计数的情况下。例如,要统计城区小学所有男学生的成绩之和,可以结合FIND函数和ISNUMBER函数来实现模糊查找和条件求和。

2024-06-04 16:43:26 893

原创 掌握SQL的时间序列分析利器:LEAD与LAG函数详解

它们允许我们访问结果集中的前一行或后一行的数据,为数据分析和处理提供了极大的便利。LEAD和LAG函数是SQL中非常有用的窗口函数,它们允许我们访问结果集中的前一行或后一行的数据,为时间序列数据分析提供了极大的便利。LEAD和LAG函数是SQL中的窗口函数,用于访问结果集中的前一行或后一行的数据。这里,我们使用LEAD函数获取每个日期后一天的销售额,并将其与当前日期的销售额相减,得到销售额的差异。这里,我们使用LAG函数获取每个日期前一天的销售额,并将其与当前日期的销售额相除,得到销售额的比率。

2024-05-08 09:13:39 1136

原创 SQL窗口函数的高级用法:ROW与RANGE的灵活使用

在 SQL 中,窗口函数(Window Functions)允许用户对与当前行相关的数据子集执行计算,而不需要使用复杂的子查询或临时表。窗口函数通常与OVER()子句一起使用,以定义窗口的边界和如何对行进行分组。在OVER()子句中,ROWS和RANGE是两个重要的子句,用于指定窗口帧的边界。

2024-05-08 09:05:10 684

原创 Linux常用命令详解:提升你的系统运维能力

在Linux系统运维工作中,熟练掌握常用命令是每位工程师的必备技能。本文将为大家介绍一些Linux系统中常用的命令,帮助大家更好地进行系统管理和维护。:实时显示系统中各个进程的资源占用状况。:显示网络状态信息,如端口监听情况等。:估算文件或目录的磁盘使用情况。):显示或配置网络接口的信息。:在文件中搜索指定的字符串。:移动或重命名文件或目录。:显示系统内存使用情况。:在目录树中查找文件。:显示当前工作目录。:显示磁盘使用情况。

2024-04-18 16:42:05 265 1

原创 pandas中set_index得用法

pandas中的set_index方法用于将 DataFrame 中的一列或多列设置为索引。这在数据分析和处理中非常有用,特别是当你想要根据某列的值来重新组织或查询数据时。以下是set_indexdropappendinplace。

2024-04-15 15:05:39 391

原创 Pandas联表函数都有那些分别怎么使用

在 pandas 中,用于连接(合并)两个或多个 DataFrame 的主要函数有merge()join(), 和concat()。每种方法都有其特定的用途和语法,下面我将逐一解释它们的用法和区别。merge()

2024-04-15 15:01:32 417

原创 标题:Lambda函数:轻量级、匿名与高效的Python编程利器

总结,Lambda函数是Python编程中一种非常有用的工具,它们具有匿名性、简洁性和高效性等特点。通过本文的介绍,我们了解了lambda函数的语法、特点以及应用场景。在Python编程中,lambda函数是一种非常有用的工具,它允许我们定义简单、轻量级的匿名函数。匿名性:Lambda函数没有具体的名称,它们通常被赋值给一个变量,然后通过这个变量来调用。由于无法包含复杂的语句或控制结构,lambda函数通常用于执行简单的计算或操作。高效性:由于lambda函数是轻量级的,它们通常比完整的函数定义更高效。

2024-03-28 16:53:04 261

原创 Pandas中GroupBy的用法与聚合函数的结合应用

总之,Pandas的GroupBy功能结合聚合函数为我们提供了强大的数据处理能力,使得我们能够灵活地对数据进行分组和汇总操作,从而更深入地理解数据的结构和特征。通过同时对多列应用不同的聚合函数,我们可以得到更丰富的汇总信息,进一步支持我们的数据分析工作。其中,GroupBy是Pandas中非常常用的一个功能,它允许用户根据一个或多个键对数据进行分组,并对每个组执行某种形式的计算。在实际应用中,我们可能希望对不同的列应用不同的聚合函数。方法,并传入一个字典来实现,其中字典的键是列名,值是对应的聚合函数。

2024-03-28 16:44:19 475

原创 利用Python和SQL进行数据分析:纯思路

本文将结合我的实际工作经验,为大家分享如何利用Python和SQL进行高效的数据分析和处理,并通过实战案例展示其强大功能,希望能为大家带来一些启发和帮助。随着数据量的不断增长和数据分析需求的日益复杂,Python和SQL在数据分析中的地位将越来越重要。在实际的数据分析项目中,数据清洗往往占据了大量的时间。通过绘制柱状图、折线图、散点图等,我们可以快速发现数据中的规律和趋势,为后续的建模和预测提供依据。相信通过本文的分享和实战案例的展示,大家已经对Python和SQL在数据分析中的应用有了更深入的了解。

2024-03-22 08:41:38 548 1

原创 MySQL递归函数详解:小白也能轻松上手

在MySQL中,递归函数是一种非常强大的工具,它允许我们在查询中执行递归操作,从而解决一些复杂的层级或树形结构问题。本文将详细介绍MySQL递归函数的用法,并通过实际例子帮助大家更好地理解和掌握。递归函数是一种自我调用的函数,即在函数体内部直接或间接地调用自身。在MySQL中,递归函数通常用于处理具有层级关系的数据,如组织结构、目录结构等。MySQL 8.0及更高版本支持递归查询,主要通过。用于日常数据分析补全某个时间段的日期。当然递归也可像如下用法使用,二、MySQL中的递归函数。

2024-03-22 08:33:21 1126 1

原创 分享一个从html格式得文本中,提取正文内容的方式

数据表里存放了多种html格式的文本数据,但是通过正则,需要写出某些格式才能抽取来,格式又不固定。那么我们已知html代码都会有标签这一说,我们可以通过<>将标签中的内容匹配出来。这里分享一个方法,原始数据都类似与下图,杂乱无序但是需要吧正文给抽取出来。代码如下,结合pandas直接对原有格式进行操作。如上图,我们就将内容处理好了。然后将<>标签替换为空。

2024-03-11 17:54:30 389 1

原创 Excel新版本xlookup函数的使用方式

xlookup函数作为Excel中的一个强大查找工具,具有灵活、高效和易用的特点。近年来,随着Excel功能的不断扩展和更新,xlookup函数逐渐崭露头角,成为了一个强大且灵活的查找工具。:对于涉及多个条件、不同查找方向或特殊匹配需求的复杂查找任务,xlookup函数能够提供一种更加简洁和直观的解决方案。这使得在处理不同类型的查找需求时,xlookup函数能够提供更加精确和灵活的结果。:通过指定未找到时的返回值,xlookup函数可以避免在结果中出现错误或空值,从而提高了数据的可读性。

2024-03-07 17:17:24 883 1

原创 Excel函数vlookup,hlookup详解

这是因为大多数表格数据都是按列组织的,而vlookup可以很方便地在首列中查找值并返回对应行的其他列的值。此外,需要注意的是,随着Excel版本的不断更新,一些新的查找函数如xlookup逐渐崭露头角。这些新函数在功能和性能上可能更加优越,因此建议读者在掌握hlookup和vlookup的基础上,也关注并学习这些新的查找函数。它主要用于在表格的行中查找指定的值,并返回该值所在列的其他行中的值。它主要用于在表格的首列中查找指定的值,并返回该值所在行的其他列中的值。

2024-03-07 17:13:32 766 1

原创 python操作mysql数据库,简单易懂

直接就上干货,看代码秒懂。

2024-02-29 09:11:56 346

原创 pandas使用sqlalchemy连接pg库,进来秒会

【代码】pandas使用sqlalchemy连接pg库,进来秒会。

2024-02-29 09:00:20 537

原创 SQL中的COALESCE函数:处理空值的小巧工具

COALESCE函数是SQL中的一个标准函数,它接受多个参数,并返回它们中的第一个非空值。COALESCE函数是SQL中一个非常实用的工具,它允许我们处理可能为空的字段,并返回有意义的结果。在这个查询中,如果"phone"字段的值是非空的,那么COALESCE函数将返回"phone"字段的值;如果"phone"字段的值是空的,那么COALESCE函数将返回字符串"未提供"。为了处理这些空值并返回更有意义的结果,SQL提供了多种函数,其中COALESCE函数是处理空值的一个非常实用的工具。

2024-02-27 16:53:51 953

原创 轻松掌握数据库中JSON数据提取:json_extract函数用法详解

这个函数在处理JSON数据时非常有用,它能帮助我们轻松地从JSON字符串中提取需要的信息。函数是MySQL数据库中的一个内置函数,用于从JSON字符串中提取数据。它的语法相对简单,功能却非常强大。

2024-02-27 11:27:15 2916

原创 mysql 中 substring_index的用法,小白都能看懂的。

mysql 中 substring_index的用法,小白都能看懂的。在处理数据的时候非常好用,也适用于写于etl流程的sql中。

2024-02-27 10:50:48 902

原创 kettle调用python的方法,etl这样也能用。

首先kettle调用python是无法直接调用的,我们可以通过创建ketle工作调用shell脚本,在从bat脚本中写bat脚本来调用python。工作路径填写python.exe所在路径,也就是python环境目录(我这是Anaconda数据分析常用的python环境)。可以通过下面的参数网python脚本里传参数,python需要调用sys模块(我这里没传)。bat脚本内容,前面写后边文件路径的执行程序也就是python的解释器路径。脚本文件名称就填写,编写得bat脚本的路径。

2024-02-22 17:50:01 791 1

原创 selenium爬虫需要爬取网页中的所有图片地址,有一些异步加载获取为空,怎么操作呢。

我们可以建立一个driver 对象,获取需要爬取部分div的宽高和位置。然后进行滑动 再去获取,相对的图片就可以啦。前面提到了一种可以使用鼠标悬浮的功能。这里使用js逆向来进行滑动。

2024-02-19 10:50:26 406 1

原创 爬虫遇到 Use $0 in the console to refer this element获取不回数据,如何解决。

Use $0 in the console to refer this element

2024-01-23 15:34:04 1055 1

原创 使用selenium爬虫遇到html异步加载问题,解决小妙招

selenium遇到异步加载时仍然可以定位到元素的,但是想要获取属性的时候跟我们看到的不一样,当鼠悬停做完之后,在获取你想要的属性,就不会出现内容不一致啦。使用selenium爬虫时遇到异步加载问题解决妙招。上面创建一个action对象,记得修改命名。这时候,我们导入一个action对象。然后我们需要做的就是鼠标悬停。

2023-10-16 10:17:54 329 2

原创 playwright初步安装与使用

它的功能也非常强大,对市面上的主流浏览器都提供了支持,API 功能简洁又强大。因为 Playwright 是一个类似 Selenium 一样可以支持网页页面渲染的工具,再加上其强大又简洁的 API,Playwright 同时也可以作为网络爬虫的一个爬取利器。Playwright 提供了自动等待相关的 API,当页面加载的时候会自动等待对应的节点加载,大大简化了 API 编写复杂度。Playwright 的安装和配置非常简单,安装过程中会自动安装对应的浏览器和驱动,不需要额外配置 WebDriver 等。

2023-09-28 14:34:02 633

转载 使用selenium 爬虫 可增加的selenium argument 含去除自动化痕迹

浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败。之前老版本这样操作即可,新版的chrome就不行了。# 解决DevToolsActivePort文件不存在的报错。# 最大化运行(全屏窗口),不设置,取元素会报错。# 隐藏滚动条, 应对一些特殊页面。# 手动指定使用的浏览器位置。# 不加载图片, 提升速度。# 浏览器不提供可视化页面。# 屏蔽'保存密码'提示框。# 隐身模式(无痕模式)# 指定浏览器分辨率。

2023-09-28 10:57:41 324

原创 数据分析师之kettle的使用,kjob这样配置发给别人就不用配置ktr路径了

在配置ktr的时候,点击右键,配置编辑作业入口 然后会看到transformation 的输入框,这时候我们把路径 写为 ${Internal.Entry.Current.Directory}/每个作业对应ktr路径,如果我们想要配置一次,然后多次使用的话。这样我们在把整个文件发给其他使用者的时候 ,其他使用者就不用在配置路径啦。这样我们在把整个文件发给其他使用者的时候 ,其他使用者就不用在配置路径啦。kettel 是我们常用的etl工具 那么单个的转换需要配置成作业。,然后那么写就ok了。

2023-09-14 14:13:39 297 1

原创 正则表达式初步学习内容,看这里你就都会了

如果匹配的字符在ascii中是连续的,可以使用-连接[a-z] 、[a-z0-9],如果[]以^开头,表示的是取反 【^ 0-9】| {m} | 表示前面的符号出现m次 || {m,n} | 表示前面的符号最少出现m次 最多出现n次 || * | 表示前面的符号连续出现任意次 【0次可以】 >=0 || ---- | ------正则re------------- || ^x | 字符串的内容以x开头 |

2023-09-06 18:02:09 42 1

原创 爬虫请求得hearders 分别代表什么,通常用到cookie,headers

查看方式: 右键 -- 检查 -- network -- 刷新页面 -- document -- requests headers -- view source。空行 分割请求头和请求体 【请求头和请求体都是 key:value的格式】User-Agent: 用户代理 告诉服务器,客户端发送请求的设备信息。Accept-Encoding: 客户端接受的压缩格式。Accept: 告知服务器,客户端所接受信息的格式。请求行组成: 请求方式 资源路径 协议/版本号。请求行 请求头 空行 请求体。

2023-06-15 15:15:06 161 1

原创 pandas使用sqlalchemy连接数据库操作,保姆级别操作步骤

1.首先我们使用pandas连接数据库 是需要导入一个数据库引擎。4.同样将数据保存使用df.to_sql()就可以了。2.再导入引擎之后呢我们需要创建一个引擎。3.然后我们就可以从数据库中读取数据啦。

2023-06-07 09:43:24 633

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除