自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(113)
  • 资源 (4)
  • 收藏
  • 关注

原创 hadoop 常用命令总结

在本地记事本记得太多了,有的命令使用频次很低,时间长了容易忘记,分享出来后续使用时查找。

2024-09-27 16:38:30 404

原创 Rust 是否会重写 Python 解释器与有关的库,替代 C 语言地位?

近2年随着Rust语言的大力发展,一些系统与软件开始逐渐使用Rust语言来实现,并且一些大型公司也开始逐渐转向Rust因为在学习 Polars 库时,看到该库是使用Rust实现的,小编近一年也逐渐开始学习Rust语言,了解到其中的一些思想相对其他语言来说确实比较先进,所有权概念的引入,不仅可以提升性能,而且还保证了数据安全、准确,不会有数据竞争问题的产生小编最近在处理加解密任务时,借助Rust语言实现了一个DES加解密库,借助Rust 中的pyo3包,在Python 中借助maturin。

2024-09-24 14:44:43 454

原创 Python pandas中重排列与列重名

把数据导出到Excel中时,有时需要对列的顺序进行调整,按业务需求进行排列,并且字段名字不能是英文,这样方便业务人员查看与理解数据,在pandas中有相应的函数可以满足以上2个要求,让我们来学习一下吧。

2024-09-06 09:49:58 352

原创 Python 利用矢量化,计算2个经纬度之间的距离

假如全国所有的酒店/民宿经纬度信息已知的情况下,基于当前位置,怎么快速计算附近5KM内的酒店/民宿呢?现实中有大量的这种业务场景,需要快速计算2点间的地球距离本篇文章,比如当前的定位是在北京,那么没有必要去计算与上海的酒店/民宿距离;来进行优化,看看性能大约能提升多少。

2024-08-20 16:04:55 399

原创 Python polars学习-10 时间序列类型

polars学习系列文章,第10篇 时间序列类型(Time series)该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习。

2024-08-05 17:22:25 909 1

原创 Python polars学习-09 数据框关联与拼接

polars学习系列文章,第9篇 数据框关联与拼接(Join 、Concat)该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习。

2024-07-23 15:23:53 728

原创 Python polars学习-08 分类数据处理

polars学习系列文章,第8篇 分类数据处理(Categorical data)该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-07-08 10:28:32 550

原创 Python polars学习-07 缺失值

在 polars 中缺失值用null来表示,只有这1种表示方式,这个与 pandas 不同,在 pandas 中NaN(NotaNumber)也代表是缺失值,但在polars中把NaN归属为一种浮点数据},print(df)┌───────┐│ value ││ --- ││ i64 │╞═══════╡│ 1 ││ 2 ││ 3 ││ null ││ 5 ││ 6 ││ null ││ 8 ││ 9 │└───────┘。

2024-06-25 19:22:20 572

原创 Python polars学习-06 Lazy / Eager API

polars学习系列文章,第6篇 Lazy / Eager API延迟、惰性即时、实时该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-06-20 17:26:34 374

原创 Python polars学习-05 包含的数据结构

polars学习系列文章,第5篇 包含的数据结构,与pandas一样,polarsSeriesDataFrame,大部分操作与pandas保持一致,减少了大家的学习难度该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-06-14 17:06:19 418

原创 让ChatGPT回答闰年的计算逻辑

背景闰年计算在平时很常见,不管是面试还是业务数据处理,基本都会涉及到闰年的计算逻辑,那么就来问一下ChatGPT(基于 4o 模型回答),让他来帮我们详细解释一下闰年的计算逻辑问题1:判断闰年的计算逻辑基本规则:一个年份如果能被4整除并且不能被100整除,则是闰年一个年份如果能被400整除,也是闰年这些规则总结起来就是:如果年份能被4整除,但不能被100整除,是闰年如果年份能...

2024-06-01 19:59:06 535

原创 Python polars学习-04 字符串数据处理

polars学习系列文章,第4篇 字符串数据处理该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-05-23 16:47:22 552

原创 polars学习-03 数据类型转换

polars学习系列文章,第3篇 数据类型转换。该系列文章会分享到github,大家可以去下载jupyter文件仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-05-13 20:04:51 678

原创 Python polars学习-03 数据类型转换

背景polars学习系列文章,第3篇 数据类型转换。该系列文章会分享到github,大家可以去下载jupyter文件仓库地址:https://github.com/DataShare-duo/polars_learn小编运行环境import sysprint('python 版本:',sys.version.split('|')[0])#python 版本: 3.11.5 im...

2024-05-13 19:13:09 259

原创 Python polars学习-02 上下文与表达式

Polars 开发了自己的特定领域语言 (DSL),用于转换数据。该语言非常容易使用,允许进行复杂的查询,但仍保持人类可读性。该语言的两个核心组成部分是上下文和表达式Polars 自己设计了一套用于处理数据的功能。该功能易于使用,而且能以易理解的方式进行复杂的数据处理。上下文与表达式是该功能的两个核心组成部分。1. Contexts 上下文上下文是指需要计算表达式的上下文选择:df.select(…),df.with_columns(…)过滤:df.filter()

2024-04-29 16:08:32 862

原创 Python polars学习-01 读取与写入文件

在Python数据处理与分析中,大家在处理数据时,使用的基本都是Pandas,该库非常好用。随着 Rust 的出圈,基于其开发的Polars库,逐渐赢得大家的喜爱,在某些功能上更优于Pandas。于是小编在自学的过程中,逐步整理一些资料供大家参考学习,这些资料会分享到github仓库地址:https://github.com/DataShare-duo/polars_learnPS:为了学习Polars,小编先了解一遍 Rust,《Rust权威指南》

2024-04-25 09:45:25 773

原创 Python中的Lambda匿名函数

Lambda匿名函数在Python中经常出现,小巧切灵活,使用起来特别方便,但是小编建议大家少使用,最好多写几行代码,自定义个函数。既然Python中存在Lambda匿名函数,那么小编本着存在即合理的原则,还是介绍一下,本篇文章翻译自《Lambda Functions in Python》,分享出来供大家参考学习原文地址:https://www.clcoding.com/2024/03/lambda-functions-in-python.html。

2024-04-09 10:01:48 298

原创 Python pandas遍历行数据的2种方法

pandas在数据处理过程中,除了对整列字段进行处理之外,有时还需求对每一行进行遍历,来处理每行的数据。本篇文章介绍 2 种方法,来遍历pandas 的行数据。

2024-03-06 14:26:36 502

原创 Python 常用的加解密算法实例应用

经过移动互联网的蓬勃发展后,促使数字化也进入大众视野,现阶段各个行业能数字化的基本都数字化,至于数字化后好用不好用是另一回事了数字化就会涉及到数据处理、数据存放等,紧接着引出了数据安全,数据存放时是否需要加密的问题,大型公司数据存放在服务器时,敏感数据基本都是加密后存放小编这里大概梳理了几个常用的加密算法,本篇文章重点是实际使用,不介绍算法原理,算法原理相对比较深奥,涉及到密码学,小编也研究不懂。

2024-02-04 18:39:38 851 1

原创 Python 利用pandas对数据进行特定排序

在pandas对数据进行排序主要使用方法axis=0,key=None)参数解释:用于排序的单个字段 或 多个字段组成的列表排序时的轴向,0 表示行向排序(一行一行排序),1表示列向排序(一列一列排序),默认是 0,也就是Excel中经常使用的排序升序、降序,默认是升序,也就是True,如果是False,则是降序注意:该参数需要和 上面的by参数要相对应是否原地更新排序的数据,默认是False,表示调用该方法后,会返回一个新的数据框进行排序时,指定的排序算法,默认是quicksort。

2024-01-18 16:53:19 1073

原创 Python利用partial偏函数,生成不同的聚合函数

偏函数(),主要用来解决函数中某些参数是已知的固定值。利用偏函数的概念,可以生成一些新的函数,在调用这些新函数时,不用再传递固定值的参数,这样可以使代码更简洁下面列举一些偏函数的巧妙使用方法,在使用偏函数时,需要从标准库functools中导入。

2023-12-26 17:32:51 442

原创 Python 利用aiohttp异步流式下载文件

aiohttp是一个现代库,为Python提供异步(协程)HTTP客户端和服务器功能。流是一种分块处理数据的方式,无需一次将整个文件加载到内存中,这对于下载大文件或同时处理多个请求非常有用。可以通过以下步骤下载带有aiohttp流的文件(尤其是几百MB或更多的大文件):创建一个对象,它表示用于发出HTTP请求的连接池(客户端会话,用于发送不同的HTTP请求)使用方法向文件URL发送get请求,并获得对象,表示来自服务器的响应使用属性访问对象,它是用于读取响应主体的流使用或。

2023-11-30 15:31:50 1839

原创 Python 字典已经是有序的,你知道吗?

随着Python版本的更新,背后的一些数据结构会进行不断优化迭代,重新进行架构设计,以实现内存减少、性能提升。其中字典的底层数据结构在Python3.6版本时,重新进行了设计,从而优化了字典的内存占用地址:https://zhuanlan.zhihu.com/p/73426505该文章的评论精彩评论:一句话解释:从Python3.6开始,dict的实现由改成。

2023-11-21 15:13:06 166

原创 利用Python对图片进行模糊化处理

背景大家在制作视频时,是不是见过一种特效:图片从清晰状态慢慢渐变为模糊状态,视频其实也就是每一帧图片拼接组成,今天就来介绍下怎么把图片模糊化,主要运用的原理就是多维高斯滤波器效果展示效果展示小编环境import sysprint('python 版本:',sys.version.split('|')[0]) #python 版本: 3.11.4完整代码%matpl...

2023-11-08 19:33:10 118

原创 Python 小知识系列(一)

问题请认真思考下这个问题,应该会输出什么呢?问题答案b. [1, 2, 3, 4]答案解释第1行:创建一个列表,变量 x 指向这个列表x = [1, 2, 3]第2行:把变量 x 赋值给一个新变量 y,这两个变量同时指向了第1行创建的列表y = x第2行解释第3行:在列表后面追加一个新元素 4,这时 x 和 y 同时也更改为新列表的值x.append(4)...

2023-10-31 16:00:53 17

原创 在Linux服务器上部署Jupyter notebook

小编在刚开始学习Python时,是在Python官网下载的原生版本,用的是自带的编码环境,后来了解到在数据分析、数据科学领域用Jupyter notebook比较好,于是直到现在也是一直在用Jupyter notebook,也偶尔用PyCharm做开发。在数据分析与处理中Jupyter notebook还是很方便,可以直接查看数据,可以写文档,可以画图 等很多优点,感觉Jupyter notebook 就是是为了数据分析、数据挖掘、机器学习而生的。

2023-10-20 14:40:03 2252

原创 Python 标准库之pathlib,路径操作

pathlib标准库是在 Python3.4 引入,到现在最近版 3.11 已更新了好几个版本,主要是用于路径操作,相比之前的路径操作方法os.path有一些优势,有兴趣的同学可以学习下**官方文档:**https://docs.python.org/zh-cn/3/library/pathlib.html。

2023-09-27 11:10:12 203

原创 Python 记录re正则模块,方便后期查找使用

前言小编第一次了解正则,是在VBA编程时用到,当时看了很多的学习资料,来了解和学习正则。因为现在数据录入、数据存放相对都比较规范,使用正则的场景越来越少,但运用正则在杂乱的数据中提取一些有用数据还是很方便,最近阅读书籍时又看到了正则相关的内容,于是总结了一下,分享出来,供大家参考学习官方文档:https://docs.python.org/zh-cn/3/library/re.htmlEx...

2023-09-12 17:46:25 92

原创 Python 利用Matplotlib制作初中时圆规画的图

大家在初中时,开始学习圆相关的知识,涉及圆的半径、周长、面积 等等,那会每位同学基本都会买一套圆规、三角板,来辅助学习和做作业使用,这些学习工具在闲暇时光也被用来玩耍,偶然间就拿着圆规在纸上画了这么一个图形,所有的圆心在同一个圆上,该图形一直记忆很深刻自从学了Python 后就一直有这么一个念头,用Python把它实现出来,最近利用业余时间就给画了出来,分享出来供大家参考学习,也是数据可视化的一部分。

2023-08-29 17:01:06 267

原创 分类问题中Sigmoid 与 Softmax 区别

利用神经网络进行分类任务时,在最后需要经过激活函数,对神经网络的原始输出值进行处理,输出每个类别的概率。本文将讨论用或处理原始输出值,进行分类问题。

2023-08-23 16:47:30 225 6

原创 Hive 中把一行记录拆分为多行记录

业务场景:统计每个小时视频同时在线观看人数,因后台的业务数据是汇总之后的,只有开始时间、结束时间,没有每小时的详细日志数据,无法直接进行统计,所以需要对每条业务数据进行拆分,来统计每个小时的同时数当然,如果有详细的日志数据也是直接可以统计的,但是正常情况下,日志数据会非常大,如果每个用户每30秒会产生一条数据,那么每天会产生大量的数据,如此大量的数据,很难长期保存。

2023-08-04 19:56:16 626

原创 Python 基于datetime库的日期时间数据处理

日期时间日期和时间的结合两个时间之间的间隔时区tzinfo 的子类--------日期时间--------时间间隔。

2023-07-27 16:18:50 180

原创 Python 中一个好用的股票开源库akshare

从小编真实接触股票已经有10年之久了,因为大学的专业就是数据与应用数据(金融学方向),大三、大四学期时学习了很多涉及金融相关的课程,特别是在大四时,老师还专门给每位同学开通了模拟炒股的账户,让全班同学一起模拟炒股,但小编用真金白银炒股的时间大概是2018年,距现在也有5年时间,一直是韭菜中最近大家也看到了曾任《环球时报》总编辑的胡锡进,也开始入市炒股,并且每天都会发博文,分享当天的炒股感受。

2023-07-27 16:16:11 1684 2

原创 工欲善其事必先利其器

俗话说的好,磨刀不误砍柴工,对于以技术来吃饭的人来说,好用的工具、好用的网站、好用的代码、好用的方法(函数),都是技术人所必须的。使用过Chatgpt后,大家是不是都坐不住了,甚至会赞叹到这么牛逼,但目前国内还不能用,经过各大厂商在昼夜加班制作模型后,截止当前小编就成功使用上了阿里的通义千问,百度的申请已不知道提了有多久,目前还没通过撇开大模型这个工具之外,平时使用最多的也就是搜索引擎工具,但...

2023-07-05 19:56:05 7

原创 Excel中的标准差stdev.S和stdev.P区别

标准差这个指标在平时使用比较多,主要是用来计算数据的离散程度,在Excel中有相关的函数,可以直接来计算,其他的编程语言里面也有相关的函数。Excel中提供了2个函数 stdev.S 和 stdev.P ,都可以用来计算标准差,但这两者应该如何合理使用呢?又有什么区别呢?本篇文章将对这两个函数进行详细的讲解。

2023-06-30 19:23:09 23786

原创 对csv文件,又get了新的认知(二)

背景最近在做数据处理时,发现别人给的 csv 文件用 txt 打开后,发现里面的所有字段都是带双引号,与自己之前见过的 csv 文件有点不一样,自己脑海里面隐约也见过 python 有相关的设置参数,于是就查看 python 官方文档中的 csv 模块介绍,总结分享出来予以记录,方便后续查看csv文档地址:https://docs.python.org/zh-cn/3.11/library/c...

2023-06-01 15:06:09 209

原创 Hive中对相邻访问时间进行归并分组

对用户每天的访问次数进行统计时,需要对用户访问页面相邻的时间间隔小于30分钟归并为一组(算是一次),这样可以统计出用户每天的访问次数(忽略隔天问题)。这个问题如果用python来处理可能比较方便,可以循环遍历每行,进行两两之间的比较。利用Hive来处理数据,劣势就是不能循环遍历不够灵活,但是也能处理,只是过程相对比较复杂。

2023-05-24 17:08:18 258

原创 Python 内建模块 bisect,二分查找算法

bisect模块提供了一种只针对的方法,快速找到插入元素的位置,这个模块使用二分查找算法,算法的时间复杂度相对更低一些,可以用于程序优化提升性能官方文档:https://docs.python.org/3/library/bisect.html#module-bisect模块中的函数主要分为两大块。

2023-05-10 09:54:50 120

原创 Python 内建模块 bisect,数组二分查找算法

介绍bisect模块提供了一种只针对 已排序的序列 的方法,快速找到插入元素的位置,这个模块使用二分查找算法,算法的时间复杂度相对更低一些,可以用于程序优化提升性能官方文档:https://docs.python.org/3/library/bisect.html#module-bisect函数分为 bisect、insort 两大块各函数详解bisect、bisect_right...

2023-05-09 20:08:28 22

原创 Python pandas 2.0 初探

每门编程语言都有其独特的用途,目前python在数据科学方面发展的相对比较全面,大家目前也都喜欢使用python来处理数据、做模型开发等。python在数据处理方面离不开pandas库,该库在今年的4月3日发布了 2.0版更新,对底层进行了大量的重构以优化性能和稳定性。

2023-04-11 10:21:36 547

VBA爬取统计局统计标准:各省市

通过Excel VBA爬取统计局统计标准:省--市--县,详细的爬虫代码

2019-01-29

Tableau详细教程

Tableau详细教程,仪表板平铺设计,可以同时平铺、浮动

2018-12-12

网页数据采集 VBA

整理自excelhoom论坛,VBA也可以爬取网页数据,简单高效

2018-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除