绝不原创的飞龙-CSDN博客

原创 FreeLearn 中文系列教程 2025.10 更新

2025-10-02 12:25:09 389

所以新的方向之一必须是能从市场上直接赚到钱的，对于程序员来讲，我们没有什么时间，但我们有自动化能力，有AI能力，所以最好的方式就是量化交易。《单干》一书中提到，最好的商业方式必须离钱最近，必须变现环节最小，轻资产大于重资产，自动大于手动，这样才能降低不可控性，那么量化交易一定是最符合这个描述的了。就算当时赚不到钱，也算是技术储备，等待经济好了，就一定能发挥作用。看到了吧，这个伪概念就是个自证预言：如果你觉得现在是【历史垃圾时间】，你放弃了自己的主观能动性，啥都不做，当然啥都不出错，但是啥都做不出来。

2024-08-14 14:43:16 3704 24

原创布客社区及饱和式翻译计划 Q&A

A1：如果你现在，在AIGC大爆发之后问我这个问题，我只想告诉你们，翻译是 AIGC 中一种重要的形式，输出稳定，没有幻觉，比什么扩写仿写之类的好多了。当然我也尝试过很多其他的AIGC形式，比如源码解析、课程笔记之类的，但都没有翻译方便省事。翻译一定是未来几年技术自媒体 AIGC 的主流形态。

2024-08-06 13:52:20 1180 13

原创 Quant文艺复兴计划正式启动！

此时此刻恰如彼时彼刻，所以我深知，如果我不自己动手写出一批教程，中文互联网就永远没有面向新手的开放教程可用。幸好现在我们有了ChatGPT，它减轻了我的主业工作量，让我有时间投入这个方面；同时，它也大大减轻了编写教程的工作量，能让这些想法迅速实现。再者，良好的量化实现是保证回测准度和自动化的前提之一。总结paperwithbacktest上的Quant前沿论文【自动】，解析代码【自动】寻找gh上的机器学习或深度学习的Quant代码，做源码解析【自动】挑选主流量化框架，翻译文档【自动】，做源码解析【自动】

2024-04-10 22:56:08 1153 60

原创一些用 GPT 翻译的计算机科学/人工智能 PDF 讲义

3D成像.pdf3D成像.pdf3D成像技术.pdf3D成像技术.pdf3D点云分析.pdf3D点云分析.pdfAAAI 2019 笔记.pdfAAAI 2019 笔记.pdfCMU 10.708 概率图模型讲义.pdfCMU 10.708 概率图模型讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-819 同伦类型论讲义.

2024-02-20 22:59:55 2350

原创环材化生劝退文章汇总 2019.3

本人的 CSDN 博客、简书专题和博客园正式加入“环材化生劝退”计划，接受相关内容的投稿。ApacheCN 开源社区接受各种环材化生转行咨询。写给分子科学与工程大一大二的学弟学妹们为什么要劝退分子科学与工程？是什么让你开始劝退的？（@韩冬）现在学生物出路真有那么不济吗？（@Mengjie Chen）盘点2018年化工行业大事故！回顾那些令人心痛的瞬间…触目惊心！2017年化工行...

2019-03-28 21:31:02 40955

原创如何构建和组织 Streamlit 应用程序

确保你的 Streamlit 应用组织良好，这可以在开发应用时帮助你保持理智，或者提供一个很好的起点，节省你从头创建新文件夹结构的时间。使用 cookiecutter 模板，例如**Streamlit Cookiecutter 模板**，可以帮助自动化这个过程，并在创建应用时让你有一个更好的开始。如果你喜欢 cookiecutter 模板或对改进有建议，请随时在**GitHub 仓库**上留下评论或新的案例。在你离开之前，你绝对应该订阅我的内容，并将我的文章放入你的收件箱。你可以在这里做到！

2025-12-28 01:50:03 431

原创如何使用 Python 布隆过滤器仅用 77MB 存储和查询一亿个项目

原文：towardsdatascience.com/how-to-store-and-query-100-million-items-using-just-77mb-with-python-bloom-filters-6b3e8549f032以编程视角编程（图片由 ChatGPT 提供）布隆过滤器是一种超级快速、内存高效的数据结构，具有许多应用场景。布隆过滤器回答一个简单的问题：集合中是否包含一个特定的值？一个好的布隆过滤器可以包含一亿个条目，只使用 77MB 的内存，并且仍然非常快速。或。

2025-12-28 01:39:06 259

原创如何保持作为软件开发人员的相关性

原文：towardsdatascience.com/how-to-stay-relevant-as-a-software-developer-d418bf28b45e?

2025-12-28 01:38:34 326

原创如何开始技术写作与博客

开始这个数据科学博客确实是我做过的最好的决定之一。我成为了一名更好的数据科学家，与一些了不起的人建立了联系，并赚了一些钱。开设博客相当直接，你可以 literally 写关于任何从职业建议到记录你的学习旅程的内容。我建议从这里开始，在 Medium 上，因为它是一个出色的平台，拥有一个庞大的技术社区，你可以从一开始就访问。

2025-12-28 01:37:14 177

原创如何在数据科学家面试中脱颖而出

为了在面试中表现出色，你需要知道什么能吸引面试官的注意，什么能让他们对你感兴趣。为此，你需要特别组织你的回答，以便自然地从他们那里获取这些信息。不论是破冰问题、技术问题还是案例研究问题，使用我们上面提到的技巧来让自己在众多候选人中脱颖而出。最好的面试是你和面试官之间的对话，而不是 FBI 审讯。像上面的例子一样组织你的回答，以操纵面试的动态，让面试官感觉他们刚刚和同事进行了一场智力交流。数据科学案例研究面试。

2025-12-28 01:36:43 207

原创如何在 2024 年脱颖而出，成为一名数据科学家

我们经验最为丰富的作者们似乎都指向了同一个方向：我们本周重点推荐的文章为数据和机器学习（ML）从业者提供了具体的见解，涵盖了广泛的职业阶段和关注领域；你学习新的技能，扩展现有的技能，展示你的经验，专注于最合适的职位列表，然后……”虽然课程、书籍和其他资源丰富，但使他的建议特别有帮助的是，它专注于在常规工作时间内进行的学习，从配对编程和辅导到知识交换和反馈周期。

2025-12-28 01:36:13 219

原创如何使用数学规划解决资产储存问题

原文：towardsdatascience.com/how-to-solve-an-asset-storage-problem-with-mathematical-programming-3b96b7cc22d1搬家很困难（由 DALLE-3 创建的图像）搬家很困难，坦白说，非常烦人——有点糟糕。如果你没有新的地方可以去，这尤其具有挑战性。

2025-12-28 01:11:00 455

原创如何用机器学习解决简单问题

原文：towardsdatascience.com/how-to-solve-a-simple-problem-with-machine-learning-9efd03d0fe69。

2025-12-28 00:59:00 383

原创如何在 2024 年设置一个用于深度学习的多 GPU Linux 机器

原文：towardsdatascience.com/how-to-setup-a-multi-gpu-linux-machine-for-deep-learning-in-2024-df561a2d3328?

2025-12-28 00:58:28 252

原创数据科学家关于个性化项目长期实验的指南

原文：towardsdatascience.com/how-to-set-up-longitudinal-experiments-a-data-scientists-guide-59b7aa729d20?

2025-12-28 00:57:58 284

原创如何选择图中最具影响力的节点组合

原文：towardsdatascience.com/how-to-select-the-most-influential-combination-of-nodes-in-a-graph-b88b40c77ae7在寻找图中的影响力节点时，您可以考虑诸如中心性或度这样的图度量，这些度量告诉您单个节点的影响力。然而，要找到图中最具影响力的节点集，您必须考虑哪种节点组合对图具有最高影响力，这是一个具有挑战性的问题。本文探讨了您如何从图中选择最具影响力的节点集的问题。

2025-12-28 00:04:48 561

原创如何使用 ONNX 运行 Stable Diffusion

ONNX 是一种用于存储机器学习模型的格式。它代表开放神经网络交换，正如其名字所示，它的主要目标是实现跨平台的互操作性。ONNX 是一个自包含的格式：它同时存储了模型的权重和架构。这意味着一个单独的.onnx文件包含了运行推理所需的所有信息。无需编写额外的代码来定义或加载模型；你只需将它传递给一个运行时（下面将进一步解释）。ONNX 也是一个运行时，用于运行 ONNX 格式的模型。它实际上运行模型。你可以把它看作是 ONNX 架构无关格式和实际运行推理的硬件之间的中介。

2025-12-28 00:04:16 571

原创如何减少 Python 处理繁重任务的运行时间

原文：towardsdatascience.com/how-to-reduce-python-runtime-for-demanding-tasks-2857efad0cec数据科学家面临的最大挑战之一是处理极大数据集或高度复杂的机器学习/深度学习模型时 Python 代码运行时间过长。许多方法已被证明可以有效提高代码效率，例如降维、模型优化和特征选择——这些都是基于算法的解决方案。另一种应对这一挑战的方法是在某些情况下使用不同的编程语言。在今天的文章中，我不会专注于基于算法的改进代码效率的方法。

2025-12-28 00:03:44 438

原创如何减少人工智能中的类别不平衡偏见？（通过难题解释）

原文：towardsdatascience.com/how-to-reduce-class-imbalance-bias-in-ai-explained-with-a-riddle-d85690e0ee48。

2025-12-28 00:03:14 501

原创如何使用 DuckDB 读取 OSM 数据

OSM）是全球最受欢迎的免费地图，并由日益增长的志愿者和贡献者群体持续维护。社区收集并构建的数据可以公开免费用于商业目的，因此许多公司、学术研究人员和个人开发者都在他们的项目中使用这些资源。所有数据都遵循开放数据公共开源数据库许可证（ODbL）。数据可以通过多种方式访问：使用 Overpass API（通过的 Web GUI）下载完整数据作为Planet OSM（2024 年当前超过 70GB）较小的下载提取：GeofabrikBBBikeProtomaps。

2025-12-28 00:02:42 565

原创如何使用 Python 阅读和分析 GDAT 文件

原文：towardsdatascience.com/how-to-read-and-analyze-gdat-files-using-python-5c8dece157d4?

2025-12-28 00:01:34 615

原创使用 gRAG 通过 LLMs 查询知识图谱的方法

知识图谱（KG）是一种结构化信息表示，它捕捉现实世界中的实体及其之间的关系。想象一个网络，其中每个点代表一个实体——例如产品、人或概念——而连接它们的线条则代表它们之间共享的关系。这个相互连接的网状结构使得对数据的语义理解更加丰富，其重点不仅在于单个信息片段，还在于这些片段如何相互关联。

2025-12-28 00:01:03 632

原创如何通过流失调查量化客户问题以便进行优先级排序

原文：towardsdatascience.com/how-to-quantify-customer-problems-for-prioritization-25c79a99f4f7?·发表于·5 分钟阅读·2024 年 3 月 14 日理解用户的需求和痛点是商业成功的关键组成部分。流失调查是为已停止使用某项服务的客户设计的一种特定类型的调查，它们是客户洞察的宝贵资源。然而，真正的力量在于将这些洞察转化为可以推动可持续增长和收入的具体行动。流失往往源于未满足的客户需求，导致订阅和收入的损失。

2025-12-28 00:00:31 512

原创如何剪枝 LLaMA 3.2 和类似的大型语言模型

如我之前所解释的，剪枝涉及移除被认为对最终输出贡献最小的模型部分。通过仔细选择这些不太关键的组件，剪枝旨在创建一个具有更少参数和降低计算需求的更高效模型，同时不牺牲其核心能力。在剪枝的主要挑战在于决定要移除模型中的哪些部分。模型的不同部分对性能的影响并不相同；每个部分都服务于不同的目的。为了说明这一点，让我们来分析本文中使用的模型结构：LLaMA 3.2–1B。在检查结构时，我们可以识别出三个主要块，它们可以是剪枝的目标：嵌入、自注意力机制和 MLP 层。

2025-12-28 00:00:00 685

原创如何剪枝 LLaMA 3.2 和类似的大型语言模型

2025-12-27 00:53:13 591

原创如何使用机器学习定价

原文：towardsdatascience.com/how-to-price-with-machine-learning-c5423af6cb1bImage from无论我们销售商品还是服务，我们都需要给它们标上价格。为了找到最优价格，我们需要了解客户对价格的反应。实现这一目标的一种方法就是使用价格响应函数。在本文中，我们将使用机器学习构建该函数，并按以下顺序使用它们来优化定价策略。定价基础：解释供求定律和不同的价格响应函数使用机器学习构建价格响应函数：使用神经网络模型构建价格响应函数。

2025-12-27 00:52:40 490

原创如何准备你的数据科学行为面试

行为面试可能很棘手，但希望这篇文章能给你一些指导，帮助你提高成功率。要记住的关键点是：始终做好准备准备 2-3 个故事基本问题的答案为面试官准备一份问题清单要充满活力。

2025-12-27 00:52:10 569

原创如何用 AI 练习数据分析师面试

我最近一直在做一些周末的 LLM 项目。与软件工程和产品管理等其他职位相比，练习数据分析面试的资源较少。在我准备第一次数据分析师面试时，我依赖于行业中的朋友，自己编写 SQL 和 Python 面试问题。大型语言模型（LLMs）在生成合成数据集和编写代码方面非常擅长。于是，我构建了AI 数据分析面试官，它可以自动生成独特的数据集，并为你生成 Python 面试问题供你解决！本文概述了其工作原理和技术实现。你可以在这里查看该项目的代码库。

2025-12-27 00:51:40 518

原创如何规划你在数据科学和机器学习领域的下一步职业发展

即使在充满挑战的时期，我们仍然可以评估当前的状况，创造性地思考我们所处的位置和希望看到的变化，并据此制定调整技能、自我展示和心态的计划。我们能给出的最诚实的回答是“我们真的不知道”，因为正如我们在过去几年见证了大语言模型（LLM）的崛起一样，这个领域（以及更广泛的技术行业）确实在快速变化。在对角色变化的深思熟虑的反思中所明确指出的那样，工作中的成功往往不是来自于某种特定的才能或能力（当然，这些也有帮助），而是来自于你工作与目标、价值观和优先级之间的强大契合。），你可能会觉得最大的难关已经过去了。

2025-12-27 00:51:08 807

原创如何在 SQL 中创建 Pivot 表

结构化查询语言（SQL）是数据专业人员（如数据科学家和数据分析师）的重要工具，它使他们能够高效、有效地检索、处理和分析大数据集。它是行业中广泛使用的工具，因此是一项重要的技能。在本文中，我将分享如何在 SQL 中创建 Pivot 表。本文是我上一篇文章“Pandas！！！我在第一次现场技术面试后的收获”的延续，文章中我分享了我对 Pandas 的学习心得。你知道 SQL 可以用于数据分析吗？在 SQL 中，Pivot 表是一种将数据从行转换为列的技术。Joan Casteel 的书中提到，“

2025-12-27 00:50:38 588

原创如何使用 Python 在 R 中执行超参数调整

数据科学和人工智能专业人士通常在构建机器学习模型以生成预测时，会花费大量时间收集数据、清理数据、准备数据以及选择完美的算法。然而，模型性能并不总是符合预期的期望。这是因为设置基线模型后，没有涵盖一个重要的步骤。是的，你想到的是正确的——调整超参数，这些参数是指导我们的模型学习和做出更好预测的设置。有时，即使使用了强大的机器学习算法，模型的表现也可能不佳，因为其超参数没有得到精细调整。然而，手动搜索最佳的超参数集并应用它们既无聊又耗时。那么，超参数调整是什么，为什么在开发机器学习模型时了解它很重要？

2025-12-27 00:50:07 768

原创如何执行 LLM 的幻觉检测

原文：towardsdatascience.com/how-to-perform-hallucination-detection-for-llms-b8cb8b72e697?

2025-12-27 00:49:35 619

原创如何使用 SQLAlchemy ORM 执行批量插入/更新/Upsert 操作

原文：towardsdatascience.com/how-to-perform-bulk-insert-update-upsert-actions-with-sqlalchemy-orm-79deef24f457在实践中，我们经常需要同时处理大量数据记录。当这种情况发生时，性能成为一个重要问题。如果处理不当，它将成为你应用的瓶颈，降低效率和可用性。在这篇文章中，我们将介绍如何使用 SQLAlchemy ORM 对大量记录执行批量插入、更新和 upsert 操作。

2025-12-27 00:42:28 734

原创如何使用 LOF 算法进行异常检测

LOF 算法是一个有趣的异常检测算法，它借鉴了 K 近邻算法的概念。与 Isolation Forest 算法不同，这个算法采用基于密度的方法来检测异常值。

2025-12-27 00:36:02 827

原创如何使用 Python 进行假设检验的 A/B 测试：全面指南 [特殊字符]

假设检验是一种决定样本数据中是否有足够证据支持关于总体的特定信念的方法。简单来说，它是一种测试你做出的更改是否有实际效果，或者任何差异是否只是由于偶然的方法。样本量（nA）= 1,000 访问者转化次数（xA）= 80转化率（pA）= 80/1000=0.08（8%）样本量（nB）= 1,000 访问者转化次数（xB）= 95转化率（pB）= 95/1000=0.095（9.5%）让我们看看我们的数据看起来如何。

2025-12-27 00:35:30 713

原创如何在 Azure 数据工厂中并行化复制活动

原文：towardsdatascience.com/how-to-parallelize-copy-activities-in-azure-data-factory-5d21df7b8562?

2025-12-27 00:34:59 570

原创如何使用遗传算法优化推荐结果

原文：towardsdatascience.com/how-to-optimize-recommendation-results-with-genetic-algorithm-46f29b5e3d9c。

AIGC系列报告202312（上）

2024-02-25

公司的自建邮件服务器投不进 163，显示“451 DT:SPM”

2020-02-19

imagemagick 从 png 转换的 pdf 太大了

2020-02-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人