数智笔记-CSDN博客

原创【aidoczh.com】AI工具中文文档库已经有76个文档啦

这个网址是做AI工具文档库的，目前已有76个自己翻译文档，19个有中文的文档，共计95个。主要是为了汇总工具文档，方便大家查阅。目前主要做的还是AI类的工具的，后面会逐步纳入大数据、数据库、后端等中文教程，以后中文类的工具文档会越来越多，希望方便大家日常学习工作。如果您觉得有帮助，欢迎您分享给您的同事、同学、朋友。

2024-12-25 22:05:09 1309

原创【aidoczh.com】CuPy中文文档上线啦，GPU版的numpy

CuPy是一个通过利用 CUDA GPU 库在 Nvidia GPU 上实现 Numpy 数组的库。通过这种实现，能够由于 GPU 拥有的众多 CUDA 核心而实现卓越的并行加速。CuPy 的接口与 Numpy 完全相同，在大多数情况下，它可以作为直接替代品使用。只需将你的 Numpy 代码替换为兼容的 CuPy 代码，Boom，你就获得了 GPU 加速。CuPy 将支持 Numpy 所有的数组操作，包括索引、广播、数组运算和各种矩阵变换。

2024-12-25 08:02:40 1111

原创【aidoczh.com】RAGAS中文教程——使用RAGAs评估RAG应用程序

RAGAs（Retrieval-AugmentedGenerationAssessment）是一个框架（GitHub文档），为您提供必要的要素，帮助您在组件层面评估RAG管道。到目前为止，我们知道为检索增强生成（RAG）应用程序构建概念验证很容易，但使其达到生产就绪状态非常困难。从外部数据库检索额外的上下文，以便大型语言模型（LLM）回答查询。基于包含检索信息的提示生成答案。在评估RAG管道时，您必须分别且整体地评估这两个组件，以了解RAG管道是否以及在哪里需要改进。

2024-11-06 07:07:35 4338 2

原创【AiDocZh.com】Numpy官网文档中文翻译上线啦

NumPy 是 Python 中科学计算的基本包.它是一个 Python 库,提供了一个多维数组对象,各种派生对象（如掩码数组和矩阵）,以及一系列用于快速操作数组的例程,包括数学、逻辑、形状操作、排序、选择、I/O、离散傅里叶变换、基本线性代数、基本统计操作、随机模拟等等.在 NumPy 包的核心,是ndarray对象.这个对象封装了同质数据类型的nNumPy 数组在创建时具有固定大小,不像 Python 列表（可以动态增长）.改变ndarray的大小将创建一个新数组并删除原始数组.

2024-09-03 07:34:39 2497

原创【AiDocZh.com】最新上线Pandas中文文档 www.aidoczh.com/pandas/

终于上线了，我差点以为完成不了，翻译编译起来都非常麻烦，尝试了很多种方法，非常不容易。Pandas是数据分析处理领域重要工具，是学习python数据处理必经之路，希望这个pandas中文文档能帮助到大家。版本：Pandas 3.0.0开发版。

2024-08-26 22:29:29 2099

原创【AiDocZh.com】Scikit-Learn1.6官方文档中文翻译上线啦

自从有了想翻译scikit-learn官方文档的想法，已经有了半年时间，现在终于翻译和校验完了。由于精力有限，难免会有一些错误，请大家见谅。scikit-learn是机器学习领域最重要的工具，但由于一些大量的专业词汇，导致阅读会有一些缓慢，通过翻译了中文文档，可以快速了解相关知识，也可以跟官网的对应网页找到对应。希望能帮助到数据挖掘、机器学习领域学习的同学。

2024-08-12 22:12:28 1804

原创 NetworkX 中文文档上线 aidoczh.com，开启图谱新篇章

NetworkX 是一个用 Python 编写的开源库，专门用于创建、操作和研究复杂网络（图论）的结构、动态和功能。它提供了丰富的工具集，能够处理图、网络和复杂系统的分析和建模。NetworkX 的设计目标是易于使用、灵活且高效，适用于学术研究、教育和实际应用。

2024-07-25 23:17:52 2438

原创 OpenAI入门指南 aidoczh.com 上线OpenAI Cookbook中文版

OpenAI Cookbook是一个涵盖广泛使用技巧和代码示例的资源，专门为希望学习和应用大语言模型（如GPT系列）的开发者和研究人员设计。这个资源库通过详细的文档、实际案例和易于理解的教程，帮助用户快速上手并深入掌握OpenAI技术的各个方面。Cookbook中包含了关于如何调用OpenAI API的基本指南，包括API的安装和配置、身份验证方法以及基本的请求和响应处理。对于初学者来说，这些基础知识是理解和使用OpenAI模型的关键起点。

2024-07-16 14:11:48 2372

原创 aidoczh.com 上线大模型提示工程指南中文文档

英文网站：https://www.promptingguide.ai中文文档：http://www.aidoczh.com/docs/prompt_guide/这次翻译主要原因是原网站的中文翻译并不全面，所以做了这个工作。我以做了全部的翻译和整理。Prompt工程是一门相对较新的学科，用于开发和优化提示，以便有效地利用语言模型（LMs）来应用于各种应用程序和研究主题。Prompt工程技能有助于更好地理解大型语言模型（LLMs）的能力和局限性。

2024-07-12 08:03:59 3048

原创 AiDocZh.com重磅发布！LlamaIndex中文文档上线啦！

LlamaIndex 是一个用于构建上下文增强LLM应用的框架。上下文增强是指将LLM应用于您的私有数据或领域特定数据的任何用例。一些流行的用例问答聊天机器人（通常称为RAG系统，代表“检索增强生成”）文档理解与提取能够进行研究并采取行动的自主代理LlamaIndex 提供了从原型到生产环境构建上述任何用例所需的工具。这些工具允许您同时摄取/处理数据，并实现将数据访问与LLM提示结合的复杂查询工作流程。这是一个汇聚做AI工具中文文档的网站，方便大家在学习和工作中查阅相关工具文档，快速使用相关工具。

2024-06-26 22:12:23 4993

原创重磅上线！AiDocZh.com发布全新AutoGen中文文档，带你解锁大模型多Agent对话新时代

AutoGen 是一个框架，可以使用多个代理进行对话，解决任务，从而实现 LLM 应用的开发。AutoGen 代理是可定制、可对话的，并且可以无缝地允许人类参与。它们可以在使用 LLM、人类输入和工具的各种模式下运行。

2024-06-16 08:58:13 8050

原创让AI知识触手可及——欢迎访问AIDOCZH.COM AI工具中文文档网站！

在当今快速发展的科技时代，人工智能（AI）已经渗透到各行各业。对于广大AI爱好者和从业者而言，一个全面、易懂且及时更新的AI工具中文文档网站无疑是福音。因此，我们热忱地向您推荐AIDOCZH.COM——一个专门为提供AI工具中文文档而创建的网站。

2024-06-13 22:27:00 2475

原创【开源啦！】Langchain官方文档中文翻译项目 ——langchain-doc-zh

LangChain是使用非常广的大模型编排工具，可以低代码的做大模型各种应用，有点类似在数据分析处理里面Pandas的地位。所以我有了一些想把一些工具的文档翻译成中文的想法。希望对于大家有一些帮助。由于文档较多，人力和能力都有限，有可能很多地方有问题，如果发现，请给我反馈，我会修改优化。希望能抛砖引玉，更多人加入到翻译优秀AI工具文档中，对于国内广大Langchain使用者有一点帮助。未来我也会陆续翻译更多的优秀AI工具的文档。

2024-05-28 14:40:57 1988

原创 KAN：科尔莫戈洛夫-阿诺德网络 KAN: Kolmogorov-Arnold Networks

论文链接：https://arxiv.org/pdf/2404.19756代码：https://github.com/KindXiaoming/pykan受科尔莫戈洛夫-阿诺德表示定理的启发，我们提出了科尔莫戈洛夫-阿诺德网络（KANs）作为多层感知器（MLPs）的有希望的替代方案。虽然MLPs在节点（“神经元”）上有固定的激活函数，但KANs在边缘（“权重”）上有可学习的激活函数。KANs根本没有线性权重 - 每个权重参数都被替换为参数化为样条的单变量函数。我们展示了这个看似简单的改变使得KANs在准确性

2024-05-03 17:45:17 9521 2

原创本地上百个大模型便携部署调用工具 Ollama 使用指南

Ollama 支持在 Modelfile 中导入 GGUF 模型：创建一个名为Modelfile的文件，使用FROM指令指定要导入的模型的本地文件路径。创建模型运行模型可以使用提示来自定义 Ollama 模型。例如，要自定义llama2创建一个Modelfile# 设置温度为 1 [值越高越有创造性，值越低越连贯]# 设置系统消息SYSTEM """""">>> hiHello!更多示例，请参考examples目录。有关使用 Modelfile 的更多信息，请参考Modelfile文档。

2024-04-14 08:27:57 24614 20

原创【NL2SQL】文本到SQL的数据库描述自动生成

在文本到SQL任务的背景下，表和列的描述对于弥合自然语言和数据库模式之间的差距至关重要。本报告提出了一种在没有明确描述时自动生成有效数据库描述的方法。所提出的方法采用双过程方法:先进行从粗到细的过程，然后进行从细到粗的过程。从粗到细的方法利用大语言模型(LLM)的内在知识来引导从数据库到表，最后到列的理解过程。这种方法提供了对数据库结构的整体理解，并确保上下文一致。相反，从细到粗的方法从列级别开始，在回到表级别时提供更准确和细致的理解。

2025-03-12 07:08:44 1217

原创【NL2SQL】BASE - SQL:一种强大的开源文本转SQL基准方法

将自然语言转换为用于查询数据库的SQL语言(文本到SQL，Text-to-SQL)具有广阔的应用前景，受到了广泛关注。目前，主流的文本到SQL方法主要分为基于上下文学习(in-context learning，ICL)的方法和基于监督微调(supervised fine-tuning，SFT)的方法。基于ICL的方法由于使用了最先进的闭源模型，能够取得相对较好的效果。然而，在实际应用场景中，需要考虑数据隐私、SQL生成效率和成本等因素，基于SFT的方法具有一定优势。

2025-03-12 06:57:51 834

原创【NL2SQL】SQL-o1:一种用于文本到SQL的自奖励启发式动态搜索方法

文本到SQL(Text-to-SQL，简称Text2SQL)任务旨在将自然语言查询转换为可执行的SQL查询。由于大语言模型(Large Language Models，简称LLMs)的应用，该领域取得了显著进展。然而，模型可扩展性、生成空间有限以及SQL生成中的连贯性问题等挑战仍然存在。为解决这些问题，我们提出了SQL-o1，这是一种基于自我奖励的启发式搜索方法，旨在增强大语言模型在SQL查询生成中的推理能力。

2025-03-12 06:49:16 971

原创【NL2SQL】 REFORCE:一种具备自我完善、格式限制和列探索功能的文本转SQL代理

文本转SQL系统通过支持对结构化数据库进行自然语言查询，使人们能够更轻松地获取关键数据洞察。然而，由于大型复杂模式(3000> {3000}3000列)、多样的SQL方言(如BigQuery、Snowflake)和复杂的查询需求(如转换、分析)等因素，在企业环境中部署此类系统仍具有挑战性。在模拟这种复杂环境而构建的基准数据集Spider 2.0上，当前的最优性能仅为20{20}\%20。主要限制包括指令遵循能力不足、长上下文理解能力差、自我优化能力弱以及特定方言知识不足。

2025-03-12 06:43:59 914

原创【NL2SQL】RSL - SQL:文本到 SQL 生成中的鲁棒模式链接

论文：https://arxiv.org/abs/2411.00073Abstract-文本到SQL生成旨在将自然语言问题转换为SQL语句。在基于大语言模型的文本到SQL任务中，模式链接(schema linking)是一种广泛采用的策略，它通过仅选择相关的模式元素来简化大语言模型(LLM)的输入，从而减少噪声和计算开销。然而，模式链接面临一些需要谨慎对待的风险，包括可能遗漏必要元素以及破坏数据库结构完整性。

2025-03-07 09:31:16 680

原创【NL2SQL】MCS - SQL:利用多重提示和多项选择进行文本到 SQL 生成

大型语言模型(LLMs)的最新进展催生了基于上下文学习(ICL)的方法，这些方法在文本到SQL任务中显著优于微调方法。然而，在包含复杂模式和查询的基准测试(如BIRD)中，它们的性能仍远低于人类专家。本研究考虑了大型语言模型对提示的敏感性，并引入了一种新方法，该方法利用多个提示来探索更广泛的可能答案搜索空间，并有效地对这些答案进行聚合。具体而言，我们通过使用多个提示进行模式链接，对数据库模式进行稳健的细化。此后，我们基于细化后的模式和多样化的提示生成各种候选SQL查询。

2025-03-07 07:32:47 713

原创【NL2SQL】E-SQL:通过文本到SQL问题丰富化实现直接模式链接

将自然语言查询转换为结构化查询语言(文本到SQL或自然语言查询到SQL)是自然语言处理和数据库领域广泛研究的一项关键任务，旨在为数据库提供自然语言接口(NLIDB)，并降低非专业人员的使用门槛。尽管最近通过使用大语言模型(LLM)取得了一些进展，但仍然存在重大挑战。这些挑战包括处理复杂的数据库模式、解决用户查询中的歧义，以及生成能够准确反映用户意图的复杂结构SQL查询。在这项工作中，我们引入了E - SQL，这是一种专门设计的新型流程，旨在通过直接的模式链接和候选谓词增强来应对这些挑战。

2025-03-07 07:23:31 906

原创【NL2SQL】CHESS:高效SQL合成的上下文利用

论文：https://arxiv.org/abs/2405.16755摘要将自然语言问题转换为SQL查询，即文本到SQL(text-to-SQL)，是一个长期存在的研究问题。有效的文本到SQL合成可能会极具挑战性，原因如下:(i)数据库目录(表及其列的描述)和数据库值的规模庞大；(ii)需要对大型数据库模式进行推理；(iii)要确保生成的查询在功能上的有效性；(iv)需要处理自然语言问题的歧义性。

2025-03-07 07:13:47 943

原创【NL2SQL】CHASE - SQL:文本到 SQL 中的多路径推理和偏好优化候选选择

在应对文本到SQL(Text-to-SQL)任务中大型语言模型(LLM)性能方面的挑战时，我们推出了CHASE - SQL，这是一个采用创新策略的新框架，它在多智能体建模中利用测试时计算来改进候选SQL语句的生成和选择。CHASE - SQL利用大语言模型的内在知识，通过不同的大语言模型生成器来生成多样化且高质量的SQL候选语句，具体方法如下:(1)采用分治法，在一次大语言模型调用中将复杂查询分解为易于处理的子查询；(2)基于查询执行计划进行思维链推理，反映数据库引擎在执行过程中采取的步骤；

2025-03-07 07:05:19 875 1

原创【NL2SQL】OpenSearch-SQL:通过动态小样本学习和一致性对齐增强文本到SQL转换能力

尽管多智能体协作大语言模型(LLMs)在文本转SQL(Text-to-SQL)任务中取得了显著突破，但其性能仍受多种因素制约。这些因素包括框架不完整、不遵循指令以及模型幻觉问题。为解决这些问题，我们提出了OpenSearch-SQL，它将文本转SQL任务分为四个主要模块:预处理、提取、生成和细化，以及一个基于一致性对齐机制的对齐模块。该架构通过对齐模块对智能体的输入和输出进行对齐，减少了不遵循指令和幻觉问题。

2025-03-06 22:19:48 924

原创【NL2SQL】通过多粒度错误识别提升文本到SQL转换能力

文本转SQL是一种将自然语言问题转换为可执行SQL查询的技术，使用户能够更轻松地查询和管理关系型数据库。近年来，大语言模型显著推动了文本转SQL的发展。然而，现有方法在SQL生成过程中往往忽略了对生成结果的验证。当前的错误识别方法主要分为基于大模型的自纠错方法和基于SQL执行的反馈方法，这两种方法都存在局限性。我们将SQL错误主要分为三类:系统错误、框架错误和值错误，并提出了一种多粒度错误识别方法。实验结果表明，该方法可以作为插件集成到各种方法中，提供有效的错误识别和纠正能力。

2025-03-06 21:51:11 1032

原创【NL2SQL】Xiyan - SQL:一个用于文本到 SQL 的多生成器集成框架

为应对自然语言到SQL任务中大型语言模型性能方面的挑战，我们推出了“XiYan - SQL”(XiYan - SQL)这一创新框架，该框架采用多生成器集成策略来改进候选生成。我们引入了M - 模式(M - Schema)，这是一种半结构化的模式表示方法，旨在增强对数据库结构的理解。为提高生成的候选SQL查询的质量和多样性，“XiYan - SQL”将上下文学习(ICL)的巨大潜力与有监督微调的精确控制相结合。一方面，我们提出了一系列训练策略来微调模型，以生成具有不同偏好的高质量候选。

2025-03-06 21:45:48 1270

原创【AiDocZh】Outlines：用于 LLM 应用的结构化文本生成

Outlines是一个开源库，提供开发人员控制和预测 LLM 输出的工具。与传统的自由形式生成不同，Outlines专注于结构化生成，确保文本遵循指定格式、约束和数据类型。这种控制级别对精度和可靠性至关重要的应用程序而言是必要的。

2025-03-06 12:46:35 858

原创【NL2SQL】PSM - SQL:用于文本到 SQL 的多粒度语义渐进式模式学习

在文本转SQL(Text-to-SQL)任务中，由于存在大量冗余的数据库模式，干扰了语义学习，且自然语言(NL)和结构化查询语言(SQL)之间存在领域差异，因此将自然语言问题转换为可执行的SQL查询具有挑战性。在本文中，我们提出了一种具有多粒度语义的渐进式模式链接(PSM - SQL)框架，以减少文本转SQL中的冗余数据库模式。PSM - SQL使用多粒度模式链接(MSL)模块，在列、表和数据库级别学习模式语义。

2025-03-06 09:28:34 938

原创【NL2SQL】可靠的文本转SQL与自适应弃权

论文地址：https://arxiv.org/abs/2501.10858大型语言模型（LLMs）已彻底改变了数据库的自然语言接口，尤其是在文本转SQL转换方面。然而，目前的方法在面对模糊性或上下文不足时，通常会生成不可靠的输出。我们提出了可靠文本转SQL（RTS），这是一种新颖的框架，通过引入弃权和人机互动机制来提高查询生成的可靠性。RTS专注于关键的模式链接阶段，该阶段旨在识别生成SQL查询所需的主要数据库元素。它能够在答案生成过程中自动检测潜在错误，并通过选择弃权或进行用户互动来作出响应。RTS的一个

2025-03-06 06:26:45 958

原创 Timer:生成预训练变换器是大型时间序列模型

深度学习在时间序列分析的进展中贡献显著。然而，在现实世界的数据稀缺场景中，深度模型可能会遇到性能瓶颈，这种瓶颈可能因当前基准上小模型的性能饱和而被掩盖。同时，大模型在这些场景中通过大规模预训练展现了强大的能力。随着大型语言模型的出现，持续取得了进展，展现出前所未有的能力，如少量样本泛化、可扩展性和任务通用性，而这些在小型深度模型中是缺失的。为了改变从头训练特定场景的小模型的现状，本文旨在早期开发大型时间序列模型(LTSM)。

2024-11-06 09:51:04 1523

原创 2024表格数据深度学习模型综述

论文地址：https://arxiv.org/abs/2410.12034表格数据在医疗、金融和交通等行业广泛使用，由于其异质性和缺乏空间结构，给深度学习带来了独特的挑战。本调查回顾了针对表格数据的深度学习模型的发展，从早期的全连接网络(FCNs)到先进的架构如TabNet、SAINT、TabTranSELU和MambaNet。这些模型结合了注意力机制、特征嵌入和混合架构，以应对表格数据的复杂性。

2024-11-06 09:11:07 4221

原创 AUTOKAGGLE: 一种用于自主数据科学竞赛的多智能体框架

涉及表格数据的数据科学任务面临复杂的挑战，需要复杂的问题解决方法。我们提出了 AutoKaggle，一个强大且以用户为中心的框架，帮助数据科学家通过协作多智能体系统完成日常数据管道。AutoKaggle 实施了一种迭代开发过程，结合代码执行、调试和全面的单元测试，以确保代码的正确性和逻辑一致性。该框架提供高度可定制的工作流程，允许用户在每个阶段进行干预，从而将自动化智能与人类专业知识相结合。

2024-11-05 18:16:54 985

原创关于元启发式算法设计、实验和应用于现实世界优化问题的教程

在过去几年中，现实世界优化问题的制定及其通过元启发式算法的高效解决已成为众多研究的催化剂。尽管在元启发式算法的设计和使用方面已有数十年的历史进展，但在新技术成果的可理解性、算法设计的正直性和性能可验证性方面仍然存在很大困难。一个明显的例子是，涉及用于优化的元启发式算法的研究作品的可复制性稀缺，这往往由于方法呈现中的模糊性和缺乏细节而变得不可行。此外，在许多情况下，其报告结果的统计显著性也值得怀疑。

2024-11-05 17:32:00 565

原创 TOOLGEN: 通过生成实现统一工具检索和调用

随着大型语言模型(LLMs)的进步，它们无法通过直接与外部工具交互来自主执行任务仍然是一个关键限制。传统方法依赖于将工具描述作为上下文输入，这受到上下文长度的限制，并且需要单独的、通常效率低下的检索机制。我们介绍了ToolGen，这是一种范式转变，它通过将每个工具表示为一个独特的令牌，将工具知识直接集成到LLM的参数中。这使得LLM能够生成工具调用和参数，作为其下一个令牌预测能力的一部分，无缝地将工具调用与语言生成相结合。

2024-11-05 17:31:17 372

原创 AUTOML-AGENT: 一个用于全流程自动机器学习的多代理大型语言模型框架

自动化机器学习(AutoML)通过自动化开发流程中的任务(如最佳模型搜索和超参数调整)来加速人工智能的发展。现有的AutoML系统通常需要技术专长来设置复杂的工具，这通常耗时且需要大量的人力。因此，最近的研究开始利用大型语言模型(LLM)来减轻这种负担，并通过自然语言接口提高AutoML框架的可用性，使非专业用户能够构建基于数据的解决方案。然而，这些方法通常仅针对人工智能开发流程中的特定过程设计，并未有效利用LLM的固有能力。

2024-11-05 17:30:43 528

原创 TABM: 通过参数高效集成推进表格深度学习

用于表格数据监督学习的深度学习架构从简单的多层感知器(MLP)到复杂的变换器和检索增强方法不等。本研究强调了一个重要但迄今为止被忽视的机会，以显著改善表格MLP:即参数高效集成——一种将多个模型作为一个模型生成多个预测的集成实现范式。我们首先开发了TabM——一个基于MLP的简单模型以及我们对BatchEnsemble(现有技术)的变体。然后，我们在公共基准上对表格深度学习架构进行大规模评估，考虑任务性能和效率，从而以新的视角呈现表格深度学习的全貌。

2024-11-05 17:29:38 812

原创 KAN 2.0: 科尔莫哥洛夫-阿诺德网络与科学的结合

Github:https://github.com/KindXiaoming/pykan.git论文：https://arxiv.org/abs/2408.10205AI + 科学的一个主要挑战在于它们固有的不兼容性:当今的人工智能主要基于连接主义，而科学依赖于符号主义。为了弥合这两个世界，我们提出了一个框架，以无缝协同科尔莫哥洛夫-阿诺德网络 (KANs) 和科学。该框架强调 KAN 在科学发现的三个方面的应用:识别相关特征、揭示模块化结构和发现符号公式。协同是双向的:科学到 KAN(将科学知识纳入 KA

2024-11-05 17:26:34 490

原创 TimeMixer: 可分解的多尺度混合用于时间序列预测

时间序列预测广泛应用于交通规划和天气预报等众多领域。然而，现实世界中的时间序列通常表现出复杂的时间变化，使得预测极具挑战性。超越简单分解和多周期分析的主流范式，我们从多尺度混合的新视角分析时间变化，这一视角基于一个直观但重要的观察:时间序列在不同的采样尺度上呈现出不同的模式。微观和宏观信息分别在细尺度和粗尺度中反映，从而复杂的变化可以本质上被解开。

2024-11-05 17:25:38 519

原创 RAGAS: 自动化评估检索增强生成

我们介绍了 RAGAS(检索增强生成评估)，这是一个用于无参考评估检索增强生成(RAG)管道的框架。RAG 系统由检索模块和基于 LLM 的生成模块组成，并为 LLM 提供来自参考文本数据库的知识，使其能够充当用户与文本数据库之间的自然语言层，从而降低幻觉的风险。然而，评估 RAG 架构是具有挑战性的，因为需要考虑多个维度:检索系统识别相关和聚焦上下文段落的能力，LLM 以忠实方式利用这些段落的能力，以及生成本身的质量。

在这个项目中，我们将解决一个关于对进行个人贷款分类的问题。Thera-Bank的大部分客户都是存款人。同时也是借款人（资产客户）的客户数量相当少，银行有兴趣快速扩大这一客户群体，通过贷款利息来增加收入。特别是，管理层希望寻找方法将其负债客户转化为零售贷款客户，同时保持他们作为存款人。去年银行针对存款客户进行的一项活动显示了超过9.6%的转化率成功。这促使零售营销部门开发了更好的目标营销活动，以提高成功率并减少预算开支。该部门希望开发一个分类器，帮助他们识别更有可能购买贷款的潜在客户。数据链接：https://www.kaggle.com/datasets/itsmesunil/bank-loan-modelling/

2023-12-18

银行市场营销数据挖掘：预测客户是否购买定期存款代码

针对UCI银行市场营销数据构建分类模型的全部代码，有非常详细的注释。https://archive.ics.uci.edu/dataset/222/bank+marketing 完整的数据集在以下论文中进行了描述和分析： S. Moro, R. Laureano和P. Cortez。使用数据挖掘进行银行直销：CRISP-DM方法的应用。在P. Novais等人（Eds.）的欧洲模拟与建模会议 - ESM'2011的论文集中，第117-121页，葡萄牙吉马良斯，2011年10月。EUROSIS。这些数据与葡萄牙银行机构的直销活动有关。营销活动基于电话呼叫。通常，需要对同一客户进行多次联系，以确定是否订阅了产品（银行定期存款）。有两个数据集： 1）bank-full.csv包含所有示例，按日期排序（从2008年5月到2010年11月）。 2）bank.csv包含10％的示例（4521个），是从bank-full.csv中随机选择的。提供最小的数据集以测试更具计算要求的机器学习算法（例如SVM）。分类目标是预测客户是否会订阅定期存款（变量y）。

2023-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

案例系列：泰坦尼克号-预测幸存者-TensorFlow决策森林.ipynb jupyter 代码示例

工具系列：PyCaret介绍-用外生变量单变量时间序列预测.ipynb

工具系列：PyCaret介绍-Fugue 集成-Spark、Dask分布式训练

案例系列：美国人口普查-预测收入超过50K-TabTransformer二分类.ipynb

工具系列：PyCaret介绍-时间序列代码示例.ipynb

案例系列：营销模型-客户细分-无监督聚类.ipynb juypter代码

案例系列：银行信用卡欺诈-不均衡数据二分类.ipynb jupyter 代码

工具系列：PyCaret介绍- 异常检测示例.ipynb juypter代码

工具系列：PyCaret介绍-二分类模型.ipynb juypter代码

工具系列：PyCaret介绍-回归模型示例.ipynb

工具系列：PyCaret介绍-多分类代码示例.ipynb python jupyter代码

工具系列：PyCaret 介绍-聚类算法案例.ipynb

银行信用卡欺诈-预测是否欺诈- 自编码器AutoEncoder二分类，python jupyter代码示例

美国人口普查-确定一个人年收入是否超过50K-TensorFlow Decision Forests二分类.ipynb

银行个人贷款营销分类项目：预测客户是否购买贷款

银行市场营销数据挖掘：预测客户是否购买定期存款代码

机器学习经典论文中英文合集：CatBoost unbiased boosting with categorical featur

机器学习经典论文中英文合集：LightGBM A Highly Efficient Gradient Boosting Deci

机器学习经典论文中英文合集：NGBoost Natural Gradient Boosting for Probabilisti

机器学习经典论文中英文合集：XGBoost A Scalable Tree Boosting System XGBoost

机器学习经典论文中英文合计：随机森林 Random Forests LEO BREIMAN Machine Learning

PaLM 2 Technical Report ，PaLM 2技术报告

kaggle机器学习、深度学习竞赛最佳方案总结

DNA序列分析软件 DNAssit 3.10 可用于64位windows

DNA序列分析软件 DNAssit 3.10 可用于64位windows

空空如也