自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(121)
  • 资源 (4)
  • 收藏
  • 关注

原创 从互联网+,到DeepSeek+,新一轮的技术变革

去年春节过后,ChatGPT成为了科技领域的热议话题,而今年过完年后,DeepSeek同样火爆异常,引发了广泛的讨论。随着大量文章的涌现,DeepSeek的功能和潜力成为了焦点。在这一波技术革新的浪潮中,这里小编也评论一下哪些行业和职业将会受到影响?毫无疑问,搜索引擎行业可能会受到DeepSeek的巨大冲击。无论是国内的百度,还是国外的Google,传统的搜索引擎模式似乎在面对像ChatGPT和DeepSeek这样的智能工具时,显得有些力不从心。

2025-02-08 16:33:52 418

原创 Python 基于Matplotlib制作动态图

一图胜千言,优秀的可视化图表不仅能以直观、简洁的方式呈现复杂的信息,还能够通过图形、颜色和布局的巧妙设计,引发观众的情感共鸣,增强数据背后故事的表达力与说服力。它们超越了单纯的数据展示,更能帮助观众深入理解潜在的趋势、关系和模式,从而更有效地支持决策和行动。

2025-01-21 17:01:53 275

原创 Python 基于协程的端口扫描工具

端口扫描技术广泛应用于网络运维、网络安全测试、以及黑客攻击服务器等领域。在网络运维中,管理员通过端口扫描来检查服务器或设备的开放端口,确保网络安全并及时发现潜在的漏洞。在网络安全测试中,端口扫描帮助识别网络中的弱点,进而制定防护措施,提升整体安全性。而在黑客攻击的情境下,攻击者通过端口扫描发现目标设备开放的服务,从而寻找攻击入口点,实施非法入侵。因此,端口扫描不仅是安全防护的一个重要工具,也常被黑客用作攻击手段。

2025-01-14 15:29:25 339

原创 管理的精髓

本文摘自《深层认知:深层洞悉事物的商业逻辑》,小编感觉讲的挺有道理,分享出来供大家品读。小编读后感到,国内公司在管理水平提升方面仍任重道远,未来的道路依然漫长且充满挑战。在中国企业家里,最懂“用人之道”和“管人之方”的,估计非任正非莫属。他对管理的认知极其深刻,甚至早已超越了企业的范畴,值得我们认真品味。要知道,华为近20万名员工都是有文化的聪明人,如何把这一群聪明能干的人拧成一股绳,形成一...

2025-01-06 10:06:35 882

原创 Clickhouse 基础使用教程

不推荐使用外部语言编写自定义函数,例如:java、python 等,推荐使用自有的函数,逐步组合实现自定义函数,性能高--分割字符串并把类型转换为整数arrayMap(

2024-12-19 19:45:11 679

原创 Clickhouse中创建生成日期序列自定义函数

因Clickhouse 是用C++语言编写,如果想扩展自定义函数,需要用C++来实现或借助sql方式实现,如果想使用其他语言,则只能进行桥接(把数据输出至系统,在系统中调用其他语言处理数据,然后把系统中输出的结果,拿回到clickhouse)。这里小编借助sql 方式来实现,感觉实现起来和编写python很像利用Chatgpt的帮助,可以一步一步完成所需要的函数功能arrayMap(和,结果是天数使用 arrayMap 遍历序列,将每个整数加到起始日期上,生成完整的日期序列。

2024-12-09 14:32:14 399

原创 Python 基于pyhive库操作hive

在大数据处理时,基本都是基于Hadoop集群进行操作,数据相关人员在开发数仓或做临时业务需求时,基本都是利用 hive,写 sql 进行数据处理与统计分析,但是 sql 在处理一些复杂业务逻辑时会比较复杂,本文通过基于 pyhive 操作 hive,把 sql 的查询结果转为 pandas 中的 DataFrame 数据框,用于后续数据分析pyhive库类似于pymysql库,都是 Python 中与不同数据库系统进行交互的库。它们都提供了简洁的接口来执行 SQL 查询,处理结果集,以及管理连接。

2024-11-14 17:08:02 460

原创 Python 基于plotly库快速画旭日图

本文借助库来画旭日图,该库是一个高级可视化库,相对 Matplotlib 更高级一些,上手起来相对比较容易。

2024-11-04 16:54:44 542

原创 hadoop 常用命令总结

在本地记事本记得太多了,有的命令使用频次很低,时间长了容易忘记,分享出来后续使用时查找。

2024-09-27 16:38:30 503

原创 Rust 是否会重写 Python 解释器与有关的库,替代 C 语言地位?

近2年随着Rust语言的大力发展,一些系统与软件开始逐渐使用Rust语言来实现,并且一些大型公司也开始逐渐转向Rust因为在学习 Polars 库时,看到该库是使用Rust实现的,小编近一年也逐渐开始学习Rust语言,了解到其中的一些思想相对其他语言来说确实比较先进,所有权概念的引入,不仅可以提升性能,而且还保证了数据安全、准确,不会有数据竞争问题的产生小编最近在处理加解密任务时,借助Rust语言实现了一个DES加解密库,借助Rust 中的pyo3包,在Python 中借助maturin。

2024-09-24 14:44:43 492

原创 Python pandas中重排列与列重名

把数据导出到Excel中时,有时需要对列的顺序进行调整,按业务需求进行排列,并且字段名字不能是英文,这样方便业务人员查看与理解数据,在pandas中有相应的函数可以满足以上2个要求,让我们来学习一下吧。

2024-09-06 09:49:58 486

原创 Python 利用矢量化,计算2个经纬度之间的距离

假如全国所有的酒店/民宿经纬度信息已知的情况下,基于当前位置,怎么快速计算附近5KM内的酒店/民宿呢?现实中有大量的这种业务场景,需要快速计算2点间的地球距离本篇文章,比如当前的定位是在北京,那么没有必要去计算与上海的酒店/民宿距离;来进行优化,看看性能大约能提升多少。

2024-08-20 16:04:55 424

原创 Python polars学习-10 时间序列类型

polars学习系列文章,第10篇 时间序列类型(Time series)该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习。

2024-08-05 17:22:25 988 2

原创 Python polars学习-09 数据框关联与拼接

polars学习系列文章,第9篇 数据框关联与拼接(Join 、Concat)该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习。

2024-07-23 15:23:53 930

原创 Python polars学习-08 分类数据处理

polars学习系列文章,第8篇 分类数据处理(Categorical data)该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-07-08 10:28:32 601

原创 Python polars学习-07 缺失值

在 polars 中缺失值用null来表示,只有这1种表示方式,这个与 pandas 不同,在 pandas 中NaN(NotaNumber)也代表是缺失值,但在polars中把NaN归属为一种浮点数据},print(df)┌───────┐│ value ││ --- ││ i64 │╞═══════╡│ 1 ││ 2 ││ 3 ││ null ││ 5 ││ 6 ││ null ││ 8 ││ 9 │└───────┘。

2024-06-25 19:22:20 725

原创 Python polars学习-06 Lazy / Eager API

polars学习系列文章,第6篇 Lazy / Eager API延迟、惰性即时、实时该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-06-20 17:26:34 418

原创 Python polars学习-05 包含的数据结构

polars学习系列文章,第5篇 包含的数据结构,与pandas一样,polarsSeriesDataFrame,大部分操作与pandas保持一致,减少了大家的学习难度该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-06-14 17:06:19 438

原创 让ChatGPT回答闰年的计算逻辑

背景闰年计算在平时很常见,不管是面试还是业务数据处理,基本都会涉及到闰年的计算逻辑,那么就来问一下ChatGPT(基于 4o 模型回答),让他来帮我们详细解释一下闰年的计算逻辑问题1:判断闰年的计算逻辑基本规则:一个年份如果能被4整除并且不能被100整除,则是闰年一个年份如果能被400整除,也是闰年这些规则总结起来就是:如果年份能被4整除,但不能被100整除,是闰年如果年份能...

2024-06-01 19:59:06 565

原创 Python polars学习-04 字符串数据处理

polars学习系列文章,第4篇 字符串数据处理该系列文章会分享到github,大家可以去下载jupyter文件,进行参考学习仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-05-23 16:47:22 638

原创 polars学习-03 数据类型转换

polars学习系列文章,第3篇 数据类型转换。该系列文章会分享到github,大家可以去下载jupyter文件仓库地址:https://github.com/DataShare-duo/polars_learn。

2024-05-13 20:04:51 869

原创 Python polars学习-03 数据类型转换

背景polars学习系列文章,第3篇 数据类型转换。该系列文章会分享到github,大家可以去下载jupyter文件仓库地址:https://github.com/DataShare-duo/polars_learn小编运行环境import sysprint('python 版本:',sys.version.split('|')[0])#python 版本: 3.11.5 im...

2024-05-13 19:13:09 298

原创 Python polars学习-02 上下文与表达式

Polars 开发了自己的特定领域语言 (DSL),用于转换数据。该语言非常容易使用,允许进行复杂的查询,但仍保持人类可读性。该语言的两个核心组成部分是上下文和表达式Polars 自己设计了一套用于处理数据的功能。该功能易于使用,而且能以易理解的方式进行复杂的数据处理。上下文与表达式是该功能的两个核心组成部分。1. Contexts 上下文上下文是指需要计算表达式的上下文选择:df.select(…),df.with_columns(…)过滤:df.filter()

2024-04-29 16:08:32 1035

原创 Python polars学习-01 读取与写入文件

在Python数据处理与分析中,大家在处理数据时,使用的基本都是Pandas,该库非常好用。随着 Rust 的出圈,基于其开发的Polars库,逐渐赢得大家的喜爱,在某些功能上更优于Pandas。于是小编在自学的过程中,逐步整理一些资料供大家参考学习,这些资料会分享到github仓库地址:https://github.com/DataShare-duo/polars_learnPS:为了学习Polars,小编先了解一遍 Rust,《Rust权威指南》

2024-04-25 09:45:25 1021

原创 Python中的Lambda匿名函数

Lambda匿名函数在Python中经常出现,小巧切灵活,使用起来特别方便,但是小编建议大家少使用,最好多写几行代码,自定义个函数。既然Python中存在Lambda匿名函数,那么小编本着存在即合理的原则,还是介绍一下,本篇文章翻译自《Lambda Functions in Python》,分享出来供大家参考学习原文地址:https://www.clcoding.com/2024/03/lambda-functions-in-python.html。

2024-04-09 10:01:48 305

原创 Python pandas遍历行数据的2种方法

pandas在数据处理过程中,除了对整列字段进行处理之外,有时还需求对每一行进行遍历,来处理每行的数据。本篇文章介绍 2 种方法,来遍历pandas 的行数据。

2024-03-06 14:26:36 595

原创 Python 常用的加解密算法实例应用

经过移动互联网的蓬勃发展后,促使数字化也进入大众视野,现阶段各个行业能数字化的基本都数字化,至于数字化后好用不好用是另一回事了数字化就会涉及到数据处理、数据存放等,紧接着引出了数据安全,数据存放时是否需要加密的问题,大型公司数据存放在服务器时,敏感数据基本都是加密后存放小编这里大概梳理了几个常用的加密算法,本篇文章重点是实际使用,不介绍算法原理,算法原理相对比较深奥,涉及到密码学,小编也研究不懂。

2024-02-04 18:39:38 877 1

原创 Python 利用pandas对数据进行特定排序

在pandas对数据进行排序主要使用方法axis=0,key=None)参数解释:用于排序的单个字段 或 多个字段组成的列表排序时的轴向,0 表示行向排序(一行一行排序),1表示列向排序(一列一列排序),默认是 0,也就是Excel中经常使用的排序升序、降序,默认是升序,也就是True,如果是False,则是降序注意:该参数需要和 上面的by参数要相对应是否原地更新排序的数据,默认是False,表示调用该方法后,会返回一个新的数据框进行排序时,指定的排序算法,默认是quicksort。

2024-01-18 16:53:19 1158

原创 Python利用partial偏函数,生成不同的聚合函数

偏函数(),主要用来解决函数中某些参数是已知的固定值。利用偏函数的概念,可以生成一些新的函数,在调用这些新函数时,不用再传递固定值的参数,这样可以使代码更简洁下面列举一些偏函数的巧妙使用方法,在使用偏函数时,需要从标准库functools中导入。

2023-12-26 17:32:51 448

原创 Python 利用aiohttp异步流式下载文件

aiohttp是一个现代库,为Python提供异步(协程)HTTP客户端和服务器功能。流是一种分块处理数据的方式,无需一次将整个文件加载到内存中,这对于下载大文件或同时处理多个请求非常有用。可以通过以下步骤下载带有aiohttp流的文件(尤其是几百MB或更多的大文件):创建一个对象,它表示用于发出HTTP请求的连接池(客户端会话,用于发送不同的HTTP请求)使用方法向文件URL发送get请求,并获得对象,表示来自服务器的响应使用属性访问对象,它是用于读取响应主体的流使用或。

2023-11-30 15:31:50 2046

原创 Python 字典已经是有序的,你知道吗?

随着Python版本的更新,背后的一些数据结构会进行不断优化迭代,重新进行架构设计,以实现内存减少、性能提升。其中字典的底层数据结构在Python3.6版本时,重新进行了设计,从而优化了字典的内存占用地址:https://zhuanlan.zhihu.com/p/73426505该文章的评论精彩评论:一句话解释:从Python3.6开始,dict的实现由改成。

2023-11-21 15:13:06 190

原创 利用Python对图片进行模糊化处理

背景大家在制作视频时,是不是见过一种特效:图片从清晰状态慢慢渐变为模糊状态,视频其实也就是每一帧图片拼接组成,今天就来介绍下怎么把图片模糊化,主要运用的原理就是多维高斯滤波器效果展示效果展示小编环境import sysprint('python 版本:',sys.version.split('|')[0]) #python 版本: 3.11.4完整代码%matpl...

2023-11-08 19:33:10 260

原创 Python 小知识系列(一)

问题请认真思考下这个问题,应该会输出什么呢?问题答案b. [1, 2, 3, 4]答案解释第1行:创建一个列表,变量 x 指向这个列表x = [1, 2, 3]第2行:把变量 x 赋值给一个新变量 y,这两个变量同时指向了第1行创建的列表y = x第2行解释第3行:在列表后面追加一个新元素 4,这时 x 和 y 同时也更改为新列表的值x.append(4)...

2023-10-31 16:00:53 21

原创 在Linux服务器上部署Jupyter notebook

小编在刚开始学习Python时,是在Python官网下载的原生版本,用的是自带的编码环境,后来了解到在数据分析、数据科学领域用Jupyter notebook比较好,于是直到现在也是一直在用Jupyter notebook,也偶尔用PyCharm做开发。在数据分析与处理中Jupyter notebook还是很方便,可以直接查看数据,可以写文档,可以画图 等很多优点,感觉Jupyter notebook 就是是为了数据分析、数据挖掘、机器学习而生的。

2023-10-20 14:40:03 2539

原创 Python 标准库之pathlib,路径操作

pathlib标准库是在 Python3.4 引入,到现在最近版 3.11 已更新了好几个版本,主要是用于路径操作,相比之前的路径操作方法os.path有一些优势,有兴趣的同学可以学习下**官方文档:**https://docs.python.org/zh-cn/3/library/pathlib.html。

2023-09-27 11:10:12 230

原创 Python 记录re正则模块,方便后期查找使用

前言小编第一次了解正则,是在VBA编程时用到,当时看了很多的学习资料,来了解和学习正则。因为现在数据录入、数据存放相对都比较规范,使用正则的场景越来越少,但运用正则在杂乱的数据中提取一些有用数据还是很方便,最近阅读书籍时又看到了正则相关的内容,于是总结了一下,分享出来,供大家参考学习官方文档:https://docs.python.org/zh-cn/3/library/re.htmlEx...

2023-09-12 17:46:25 100

原创 Python 利用Matplotlib制作初中时圆规画的图

大家在初中时,开始学习圆相关的知识,涉及圆的半径、周长、面积 等等,那会每位同学基本都会买一套圆规、三角板,来辅助学习和做作业使用,这些学习工具在闲暇时光也被用来玩耍,偶然间就拿着圆规在纸上画了这么一个图形,所有的圆心在同一个圆上,该图形一直记忆很深刻自从学了Python 后就一直有这么一个念头,用Python把它实现出来,最近利用业余时间就给画了出来,分享出来供大家参考学习,也是数据可视化的一部分。

2023-08-29 17:01:06 304

原创 分类问题中Sigmoid 与 Softmax 区别

利用神经网络进行分类任务时,在最后需要经过激活函数,对神经网络的原始输出值进行处理,输出每个类别的概率。本文将讨论用或处理原始输出值,进行分类问题。

2023-08-23 16:47:30 247 6

原创 Hive 中把一行记录拆分为多行记录

业务场景:统计每个小时视频同时在线观看人数,因后台的业务数据是汇总之后的,只有开始时间、结束时间,没有每小时的详细日志数据,无法直接进行统计,所以需要对每条业务数据进行拆分,来统计每个小时的同时数当然,如果有详细的日志数据也是直接可以统计的,但是正常情况下,日志数据会非常大,如果每个用户每30秒会产生一条数据,那么每天会产生大量的数据,如此大量的数据,很难长期保存。

2023-08-04 19:56:16 710

原创 Python 基于datetime库的日期时间数据处理

日期时间日期和时间的结合两个时间之间的间隔时区tzinfo 的子类--------日期时间--------时间间隔。

2023-07-27 16:18:50 189

VBA爬取统计局统计标准:各省市

通过Excel VBA爬取统计局统计标准:省--市--县,详细的爬虫代码

2019-01-29

Tableau详细教程

Tableau详细教程,仪表板平铺设计,可以同时平铺、浮动

2018-12-12

网页数据采集 VBA

整理自excelhoom论坛,VBA也可以爬取网页数据,简单高效

2018-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除