自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(365)
  • 收藏
  • 关注

原创 简述Python里面search和match的区别

要是真想让正则用得顺手,还是建议多写几段,多踩几坑,比看文档强。一个是“搜索”,一个是“匹配”,名字听着都挺正常的,但用起来老是出幺蛾子,最典型的问题就是:“为啥我这个正则写得没毛病,正则这东西吧,说简单也简单,说麻烦也真麻烦,尤其当你正则写得花里胡哨,结果匹配不上,调试半天才发现函数用错了,那滋味,谁用谁知道。这个坑,说实话,我当年也踩过,还是线上业务上踩的。是更贴近文本处理日常场景的选择,Python 的哲学里讲究“合理的默认行为”,所以实际开发中,很显然,“Hello”才是开头,它就不干了。

2025-06-12 16:32:26 183

原创 使用 LLM 从零构建知识图谱

本项目使用CNN/DailyMail数据集作为研究对象。该数据集包含超过30万篇新闻文章及其对应的人工撰写摘要,是进行实体、关系和事件提取的理想资源。# 使用特定版本可以帮助保持一致性我们选择版本"3.0.0",这是该数据集的最新稳定版本。# 计算记录总数total_records=len(cnn_dm_dataset["train"]) +len(cnn_dm_dataset["validation"]) +len(cnn_dm_dataset["test"]) # 打印总数和样本记录。

2025-06-11 19:08:42 661

原创 超越 SKLearn!更强大的机器学习框架PyTabKit

PyTabKit框架通过集成优化的深度学习和梯度提升技术,为表格数据处理提供了一套全新的解决方案。性能提升:经过元级调优的模型默认配置在无需额外调优的情况下,显著优于传统实现,特别是在中等到大型数据集上。开发效率:简化的API设计和优化的默认参数大幅减少了开发周期,使数据科学家能够将更多精力集中在业务理解与模型解释上。资源节约:通过减少或消除繁重的超参数优化需求,PyTabKit有效降低了计算资源消耗,特别适合资源受限的环境。多模型集成。

2025-06-10 19:04:24 715

原创 VSCode不装了!新版剑指Cursor,MCP支持buff叠满!网友看罢: 真·AI神器?

上月,VS Code官方账号发布了新版本1.100。这次新版本的发布,亮点很多,堪比一次跟Cursor的实力对线。先说整体上的感受。这次更新有不少提升开发者编程体验的功能增强和优化。具体有四个——1、VSCode大力加强了智能Chat的实用和效率,引入了自定义指令和可重用提示;2、编辑器增强了多窗口、浮动窗口的设置支持,UI元素可以直接附加到上下文,编辑效率大大提升;3、MCP服务器添加了对图像和可流式传播的HTTP支持;4、对Github Copilot的集成得到了增强。

2025-06-09 15:51:08 789

原创 蒙特卡罗模拟: 高级应用的思路和实例

蒙特卡罗模拟(Monte Carlo Simulation)是一种利用重复随机抽样来了解系统行为的计算技术。通过运行数以千计或数以百万计的模拟,你可以估算出概率、风险和其他涉及不确定性问题的统计量。它的核心思想是:通过大量重复的随机实验,逼近真实世界的统计规律。蒙特卡罗模拟以其独特的概率视角,为复杂现实问题的决策提供了强大的数据驱动支持。从简单的随机抽样到多变量、多层次的复杂系统建模,它能够揭示传统分析方法难以捕捉的不确定性和风险。

2025-06-05 18:57:06 875

原创 Python 隐藏法宝:双下划线 _ _Dunder_ _

Dunder方法(就是那些用双下划线__包裹的特殊方法)在Python中是个很大的话题,而且还在不断丰富。这篇文章当然没法面面俱到地讲完所有内容。我写这些主要是想帮你弄明白两件事:Dunder方法到底是什么?怎么用它们解决实际编程中常见的问题?说实话,不是每个程序员都必须掌握这些方法。但就我个人经验来说,当我真正搞懂它们之后,写代码的效率提高了很多。相信对你也会很有帮助。使用Dunder方法最大的好处就是:不用重复造轮子让代码更简洁易读更符合Python的编程风格。

2025-06-04 19:18:46 1429

原创 还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型

(2)多能力项奖励系统:为了确保模型多能力项协同提升,数学和代码均采用了基于规则的奖励,通用奖励模型则使用 LLM-as-a-judge 的方法对生成的回复质量进行评分,并对最终的 reward 进行归一化处理,保证了模型在多个能力项的综合表现。然而,在超大参数规模情况下,直接应用 GRPO 会带来两方面的问题:1. 算法训练需要依赖多回复通过率在 (0,1) 内的数据,随着模型性能的提升,相同 prompt 的推理结果准确率越来越高,导致训练过程中被 “浪费” 的数据不断增加,降低推理效率;

2025-05-30 17:28:50 621

原创 DeepSeek-V3再发论文,低成本训练大模型的深度解读

因此,来自同一 QP 的数据包可能会穿越不同的网络路径,并以无序方式到达接收方,因此需要在网卡内原生支持无序布局,以保证消息一致性并保留正确的排序语义。在 H800 架构中,纵向扩展(scale-up,节点内)和横向扩展(scale-out,节点间)通信之间的带宽差异约为 4:1。具体而言,NVLink 可提供 200GB/s 的带宽(其中实际可实现约 160GB/s),而每个 400Gbps IB 网卡仅提供 50GB/s 的带宽(考虑到较小的消息大小和延迟影响,有效带宽为 40GB/s)。

2025-05-29 18:56:12 770

原创 使用 Unsloth 快速微调 LLMs 实用指南

大型语言模型(LLM)虽然具备强大的通用能力,但在实际生产部署中往往面临诸多挑战。- 持续吸收最新的行业数据和专业信息- 保持符合品牌调性的表达方式- 避免产生有害或误导性内容- 确保输出内容的真实性和可靠性- 防止回答偏离核心业务需求这就是 “微调”(Fine-tuning)的用武之地,即在特定数据集上进一步训练 LLM,使其内化有关领域、语气或预期任务目标的信息。很多人会认为,RAG(检索增强生成)可以替代微调模型,但它并不能完全替代模型微调。:检索到的外部知识难以深度融入模型推理过程。

2025-05-28 19:01:56 857

原创 强推这个 Python 库,把终端玩出花儿了

rich的库提供了大量颜色供你选择。first = 0else:在本例中,我们使用了dracula主题,使我们的代码具有独特的外观。

2025-05-27 18:53:15 771

原创 这几个Jupyter Notebook高级功能,不允许你还不知道

虽然 Jupyter 的默认快捷方式很好,但你也可以创建自己的快捷方式。下面我们看下如何创建。帮助 → 编辑键盘快捷键我设置了重启内核(因为我经常这么做)。根据你的工作流程和习惯定制快捷键是非常有必要的。

2025-05-26 19:00:00 496

原创 机器学习实战:犯罪率预测模型

今天将和大家分享一个机器学习实战项目,该项目从数据预处理、建立不同的学习模型,到根据人口和经济信息找到更强大的阈值来预测不同地区的犯罪率。根据不同的衡量标准,挑选出 10 种严重影响高犯罪率地区的特征。运用到的算法包括:决策树分类器、高斯朴素贝叶斯、线性支持向量机、线性回归、岭回归、多项式特征、KNN、多项式 SVC。

2025-05-22 18:55:12 661

原创 2025年了,还在用 Pandas 那就OUT 了!

与 Pandas 相比,使用 Polars 的速度快如闪电。今天展示的每项操作都更快,而且事实证明,从 Pandas 切换到懒散评估的 Polars,可以将整个数据处理管道的速度提高 12 倍。既然如此,为什么大多数数据专家仍在使用Pandas呢?Pandas 可能是大多数人学会的第一个数据处理框架,而且人们对它的认知度也更高。随着时间的推移,改变只会越来越难。Pandas 也是中小型数据集的最佳选择。但当数据量超过内存时,两者就不分伯仲了。Polars 胜出一筹。

2025-05-21 16:00:23 976

原创 推荐一个 Python 神级内置工具:partial

是 Python 函数式编程的一把利器,它通过参数固化和函数定制,让代码变得更加简洁、灵活和可维护。无论是减少重复参数传递、增强可读性,还是适配接口、构建模块化逻辑,partial都能显著优化代码结构。减少样板代码,避免重复定义相似函数。明确代码意图,让函数调用更直观、更专注。提升开发效率,特别是在高阶函数、回调机制和 API 封装等场景。partial通常用在微调函数行为或固定某些参数的情况,此时使用partial,你的 Python 代码将变得更加简洁而强大!

2025-05-20 18:58:26 620

原创 最强合集!Python 数据可视化工具,你都用过哪些?

Python 的丰富软件包生态是其最大优势,但也让用户面临选择困难:我是否在使用最好的数据可视化工具?经过 10 年的思考,我决定分享我的见解,并用数据和图表支持我的观点,希望能成为这一主题的最佳参考。上图展示了 GitHub 上按星号数量划分的 Python 包规模(主要用于装饰)。接下来,我们将通过决策树、量化指标和详细分析,帮助你选择最适合的工具。

2025-05-19 16:31:04 711

原创 Python 3.14 t-string 要来了,它与 f-string 有何不同?

"""上下文感知的渲染器根据context参数自动决定如何处理每个插值:- "text": 普通文本模式,直接转为字符串- "html": HTML模式,自动转义HTML特殊字符,防止XSS- "sql": SQL模式,自动转义SQL特殊字符,防止注入"""parts = []# 基于值类型和上下文进行智能处理# HTML模式:自动转义HTML特殊字符# SQL模式:防止SQL注入# 将1个单引号转义成2个else:else:# 同一个模板在不同上下文中的自动适配渲染。

2025-05-16 16:07:48 586

原创 推荐一个 Python 神库 Distilabel -- AI 高质量数据合成神器!

高质量合成数据生成与可靠的AI反馈机制。该框架通过模块化管道设计,将大语言模型(LLM)与数据处理流程深度融合,为工程师提供了一套可扩展的解决方案。数据质量优先:基于Meta-Llama、Mistral等先进模型的生成能力,结合研究验证方法生成优质数据全链路控制:支持从本地模型到商业API的多样化LLM集成工业级扩展- 通过Ray实现分布式处理,单机可处理百万级数据样本研究到生产的快速转化:内置文本生成、聚类分析等20+预处理模块。

2025-05-15 17:10:12 692

原创 用好 Jupyter Notebook,这些你可能都没做到

作为数据科学领域的事实标准工具,Jupyter Notebook 凭借其交互式执行环境、即时可视化反馈和富文本注释功能,已成为研究探索阶段的首选平台。然而,其灵活性的另一面是可能引发代码组织松散、版本控制困难等协作痛点。对于独立研究者而言,这种非正式性或许无伤大雅。但当团队协作成为常态时,缺乏统一标准可能导致严重的知识传递断层——据Anaconda 2023年调查显示,68%的数据科学家曾因同事的混乱notebook而延误项目进度。建立轻量级但有效的规范体系,正是提升团队协作效率的关键。

2025-05-14 16:43:12 529

原创 unsloth 微调 Qwen3 实战教程来了!

unsloth微调Qwen3模型提供显著优势:训练速度提高2倍,VRAM使用减少70%,支持8倍长的上下文。Qwen3–30B-A3B仅需17.5GB VRAM即可运行。unsloth的Dynamic 2.0量化技术保证了高精度,同时支持原生128K上下文长度。Qwen3模型具有思考模式和非思考模式,适用于不同复杂度的任务。微调后的模型可用于法律文档分析、定制知识库构建等领域,能够处理特定领域查询并保持上下文,优于纯检索系统。

2025-05-13 19:03:10 718

原创 墙裂推荐一个 Python 神库--Pydantic

虽然默认的类型验证已经很棒了,但我们总是需要超越它。Pydantic 提供了多种不同的方式,你可以添加自己的验证例程。在开始研究这些之前,我们需要先讨论一下 Before 和 After 选项。正如我上面所说,绑定验证被视为默认验证,因此当 Pydantic 在字段上添加自定义验证时,它被定义为在此默认验证之前或之后。对于我们稍后将讨论的Model验证,其含义有所不同。“之前”是指在对象初始化之前进行验证;“之后”是指在对象初始化完成后,其他验证也已完成。

2025-05-12 13:17:02 779

原创 Python 3.14 t-string 要来了,它与 f-string 有何不同?

"""上下文感知的渲染器根据context参数自动决定如何处理每个插值:- "text": 普通文本模式,直接转为字符串- "html": HTML模式,自动转义HTML特殊字符,防止XSS- "sql": SQL模式,自动转义SQL特殊字符,防止注入"""parts = []# 基于值类型和上下文进行智能处理# HTML模式:自动转义HTML特殊字符# SQL模式:防止SQL注入# 将1个单引号转义成2个else:else:# 同一个模板在不同上下文中的自动适配渲染。

2025-05-09 17:23:04 751

原创 彻底悟了!Python 循环

Python 的while循环是在给定条件成立的情况下重复执行一段代码。与for循环(迭代次数已知)不同,while循环非常适合无法预先知道迭代次数的情况。循环是 Python 中非常有用的构造,因此学习如何编写和使用循环对于 Python 开发人员来说是一项很棒的技能。文本我们将一起学习:Python 中同时存在这两种循环,在本文中,云朵君和大家一起学习有关while循环的知识。在 Python 中,当你需要重复执行一系列任务(次数未知)时,通常会使用while循环。

2025-05-08 19:14:26 678

原创 停止这样使用 Python 字典!

如果你是个初学者,或者写代码有一段时间了,需要好好看一下你是否也会一样,像接下来的文章一样,错误使用 Python 字典。如果你也是一个资深玩家,可以一起探讨!不瞒你说,就连我也……但我从错误中吸取了教训,并改正了。所以今天特地总结了几个常见错误,也来阻止你。

2025-05-07 17:10:04 361

原创 使用 Plotly 创建 60+ 令人惊叹的交互式图表、地图

以下是整个研究中讨论的 Plotly 可视化的商业价值和诠释的摘要:线形图强调 Y 轴上的指标随 X 轴上的变量而发生的变化,是时间序列分析(TSA)的最佳实践,如气象学、金融科技、医疗保健、交通等。散点图显示两组数据之间的关系/相关性,你可以从数据中看出明显的趋势。散点图在现实生活中用于直观地显示二元数据(销售、天气、医疗、生物、经济等)散点图矩阵是粗略判断多个变量之间是否存在线性相关关系的好方法。

2025-05-06 16:27:47 1080

原创 Python 类不要再写 __init__ 方法了

从现在开始,当你定义新的 Python 类时:将它写成数据类(或者一个 attrs 类[4],如果你喜欢的话)使用默认的__init__方法。【注2】添加,为调用者提供方便且公开的对象构造方法。要求所有依赖项都通过属性来满足,这样总是先创建出一个有效的对象。使用来对基本数据类型(比如int和str)添加限制条件,尤其是当这些类型需要具备一些特殊属性时,比如必须来自某个特定库、必须是随机生成的等等。

2025-05-05 14:30:00 939

原创 15 个 必知的Python 内置函数

当然,你每天都在使用print()。但你探索过它的额外功能吗?end:默认情况下,print()会在每次调用后添加一个换行 (\n使用end可以改变这一点。sep:如果你要打印多个项目,这决定了它们之间的分隔符(默认为空格)。示例!!")!!它非常适合创建更简洁的输出,而无需额外的字符串格式化。

2025-04-30 19:01:05 733

原创 VS Code 的新AI Agent 模式绝了

Agent 模式让 VS Code 不仅仅是一个编辑器。它是一个合适的助手--能够真正与你一起构建、修复和思考问题。你带来愿景,它就能将其变为现实。

2025-04-29 18:58:56 712

原创 Python Enum 技巧,让代码更简洁、更安全、更易维护

我们可以通过添加属性和方法来增强Enum,从而提供额外的功能。具体方法如下@property这将使enum更丰富和。Python 的enum.Enum不仅仅是一个常量集合。通过添加属性、方法和额外属性,你可以让Enum成为应用程序中强大的工具。无论你是在构建网络应用程序、API 还是 CLI 工具,这一技巧都能帮助你编写出更简洁、更有条理的代码。下一次使用Enum时,不要局限于基本的常量--用这个强大的技巧释放它们的全部潜能!

2025-04-28 13:18:19 338

原创 时间序列预测模型比较分析:SARIMAX、RNN、LSTM、Prophet 及 Transformer

我们使用 “电力生产 ”数据集探索时间序列识别。我们的目标是计算该数据的月平均值,从而发现准确预测所必需的关键趋势和模式。plt.show()图 (1): 月度电力生产数据可视化该图(图 1)揭示了电力生产的潜在季节性变化,这对预测工作至关重要。plt.show()图 (2): ACF 和 PACF 图Dickey-Fuller 检验: 显示非平稳性,表明需要进行差分。ACF 和 PACF: 突显了自回归和移动平均成分的必要性,建议使用初始 ARIMA(1,1,0)模型。

2025-04-25 15:54:34 857

原创 10 精彩绝伦的 Python 功能

如果你学习 Python 有一段时间了,你可能会遇到一些比较迷惑功能。它们看起来比较复杂,实际非常好用的技巧。这些功能都是非常出色的工具,只要你了解它们,就能让你的代码更简洁、更高效、更优雅。我们用简单的语言分解其中的 10 个功能。

2025-04-24 18:56:54 826

原创 硬控 Python 代码,加速 500%

列表推导式在引擎盖下是以一个优化的 C 循环来实现的。相比之下,标准的for循环需要多条 Python 字节码指令,包括函数调用,这会增加开销。你通常会发现,列表推导式比 for 循环快 30-50%。这是对 for 循环的重大改进,使得列表理解比典型的 for 循环更干净、更快。lru_cache优化 Python 代码并不一定是一项艰巨的任务。通过采用诸如使用slots来提高内存效率、利用。

2025-04-23 18:56:33 727

原创 10 个自动化日常任务的 Python 脚本

这些脚本展示了 Python 自动执行日常任务的能力,让你的生活更轻松、更高效。请尝试这些脚本,并根据你的具体需求对它们进行调整。你最想尝试哪个脚本?请在评论中告诉我!

2025-04-22 19:06:51 243

原创 DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

项目使用了该数据集中的示例来训练模型,基于强化学习(RL)训练范式,让模型生成多个问题解答样本,之后作者将这些解答与 GSM8K 示例中的标准答案进行对比,如果匹配,就为 RL 算法(GRPO)提供高奖励,然后更新模型权重,以增加模型下次获得高奖励的可能性。教程地址:https://github.com/aburkov/theLMbook/blob/main/GRPO_From_Scratch_Multi_GPU_DataParallel_Qwen_2_5_1_5B_Instruct.ipynb。

2025-04-21 16:12:47 587

原创 Python 实现 GRPO 简版

...</answer>"""<answer>{answer}

2025-04-18 17:16:31 796

原创 再以这样的方式编写 Python 函数,你就OUT了!

编写更好的 Python 函数不仅仅是为了让它们工作,更是为了让它们可读、可维护和高效。通过避免这些常见错误并遵循最佳实践,你将写出更简洁、更专业的 Python 代码。现在你知道如何改进 Python 函数了,回到你的旧代码并重构它!你会惊喜地发现代码变得更简洁、更高效了。还有其他函数编写技巧吗?欢迎在下面的评论中留言!

2025-04-17 18:55:53 250

原创 dify v0.15.3外挂ragflow知识库,保姆级教程来了!

今天和大家一起学习如何使用ragflow+dify搭建本地问答系统。为什么要和dify结合呢,是因为dify的智能体功能非常强大,ragflow中虽然有类似的功能,但是并没有dify那么强大;但是ragflow可以解决dify解析和检索短板。对应的,ragflow的资源消耗比较大,大家可以注意一下!最后,如果大家有疑问和建议非常欢迎批评指正!

2025-04-16 18:56:36 779

原创 10个令人惊叹的开源AI项目,诞生了!

最近精选了10个最震撼的开源AI工具。这些项目覆盖数据处理、机器学习框架、图像生成等多个领域,相信总有一个能激发你的灵感火花。我之所以选择它们是因为它们涵盖了从数据整理到语音技术等各种 AI 优点。

2025-04-15 19:19:32 1545

原创 5 种被严重低估的统计检验

这五种统计检验确实在非理想数据条件下表现出色,能够解决许多传统参数检验(如t检验、ANOVA)的局限性。1. Mann-Kendall 趋势检验用途:检测时间序列中的单调趋势(上升/下降),无需假设线性或正态性。优势:对缺失数据、非正态分布和季节性波动稳健。案例: 环境科学中分析气温或污染物的长期趋势。2. Mood's Median 检验用途:比较多个独立组的中位数差异,替代单因素ANOVA的非参数版本。优势:不受异常值或偏态分布影响,适用于序数数据。注意:若组间方差差异大,可能更优。案例。

2025-04-14 19:00:00 1559

原创 PINN:用深度学习PyTorch求解微分方程

return out步骤3物理信息神经网络(PINN)代表了一种在微分方程求解领域的重要技术突破,它将深度学习与物理定律有机结合,为传统数值求解方法提供了一种高效、数据驱动的替代方案。PINN方法不仅在理论上具有创新性,同时在实际应用中展现出广阔的应用前景,为复杂物理系统的建模与分析提供了新的研究路径。

2025-04-11 11:57:29 1320

原创 没想到,更改import方式,Python 启动提速 5 倍!

惰性导入技术展现了Python元编程的强大能力,它让我们能够在保持语言简洁性的同时实现深层次的性能优化。正如计算机科学大师Donald Knuth所言:"过早优化是万恶之源",但在确知性能瓶颈后的智能优化,却是每个专业开发者必备的技能。在现代Python工程实践中,我们建议:首先保持代码可读性和可维护性通过性能分析定位真实瓶颈针对性地应用惰性导入等优化技术建立持续的监控机制通过这种平衡的方法,我们既能享受Python的开发效率,又能构建出高性能的生产级应用。

2025-04-10 19:03:48 922 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除