踏歌~-CSDN博客

原创 LLaMA Factory简介和使用方法

LLaMA Factory是一个集成多种高效微调方法（如LoRA、QLoRA）的开源大语言模型框架，提供Web UI和CLI两种操作模式，大幅降低LLM微调门槛。其核心学习包括：1）数据准备，支持alpaca、sharegpt等格式；2）微调方法，包括全参数、LoRA/QLoRA和DPO；3）模型工作流，涵盖预训练、指令微调和偏好对齐；4）训练后处理，如模型合并与推理测试。数据转换需根据任务类型选择合适格式并保存为JSONL文件。全参数微调会更新所有模型参数，性能上限最高但资源消耗大。

2026-03-15 16:09:11 532

原创 KDB交易信号的生成与测度

本文介绍了算法交易中四大核心微观结构信号的计算方法。首先将信号分为价格、成交量和新闻三类，重点分析订单簿失衡(OBI)、订单流失衡(OFI)、微观公允价格(MFP)和成交失衡(TI)四个指标。其中OBI通过买卖盘挂单量比例预测短期走势，OFI关注L1层级挂单变化，MFP改进传统中价算法，TI通过交易流水判断主动方力量。文章还介绍了kdb+中的as-of join(aj)技术实现数据同步，并提出了信号验证的三步流程：计算信号序列、匹配未来回报和指标评价。

2026-03-11 14:34:38 376

原创 KDB基本操作和解释一览

KDB是一种高性能列式数据库和编程语言，专为高速数据处理设计，广泛应用于金融高频交易和实时分析。它使用简洁的Q语言作为接口，支持高效的时间序列数据处理。本文介绍了KDB的基本操作，包括变量命名、注释、简单运算、函数定义以及列表操作。列表是Q语言的核心数据结构，支持多种创建和操作方法，如til生成序列、count获取长度、take/drop元素操作、reverse翻转以及逗号拼接等。这些特性使KDB能够高效处理大规模数据，满足低延迟、高吞吐量的金融应用需求。

2026-03-09 17:32:23 336

原创 Vscode中的源代码管理如何使用

VS Code中使用Git进行源代码管理的简明指南本文介绍了如何在VS Code中使用Git进行源代码管理。主要内容包括：准备工作：安装Git并初始化仓库基本工作流程：修改文件→暂存更改→提交更改→同步到远程仓库分支管理：创建新分支、切换分支、在不同分支上工作使用Git Graph插件可视化操作重点说明了Git的核心逻辑：先在本地建立版本快照，再选择性上传到GitHub。通过VS Code的可视化界面，用户可以轻松完成Git操作，无需记忆复杂命令。特别适合需要版本控制和团队协作的开发场景。

2026-02-27 18:23:33 922

原创终极指南：在 Windows 上配置 KDB+, JupyterQ 与 Python (embedPy)

本文提供了一份Windows下KDB+与JupyterQ集成开发的详细教程。主要内容包括：1) 解析JupyterQ架构原理，重点说明embedPy桥接机制；2) 指导注册获取KDB+个人版及License文件；3) 分步安装流程，建议使用Anaconda创建Python 3.7/3.8环境；4) 针对Windows特有的"embedPy requires python 3.6"误报和"Fault address"崩溃问题，给出修改p.q脚本和设置关键环境变量的解决方

2026-01-23 11:34:24 1088 1

原创突击债市高频交易（固收）面试

债券本质上是一种有价证券，代表了债权债务关系。通俗理解：发行人（借钱方）给投资者（借出方）打的“欠条”。核心三要素本金利率到期日关键特征：约定在未来特定时间还本付息。（百分之零点零一）（万分之一）💡 速算技巧看到百分号，把小数点往右移两位，就是 BP。上行 (Up)= 收益率涨 = 价格跌。下行 (Down)= 收益率跌 = 价格涨。概念数学对应 (Math)

2026-01-16 10:10:39 1054

原创债市固定收益部的高频交易实习面试突击（请把我当傻子来教）

债券高频交易（HFT）的核心在于利用市场微观结构和价格波动获利。关键概念包括：债券价格与收益率的反向关系（跷跷板效应），久期衡量利率敏感性（长久期债券波动更大）。交易主要在银行间市场（批发式OTC）和交易所（电子化订单簿）进行，HFT通过捕捉期货与现货价差套利。订单簿分析是重点，需理解Maker（挂单赚价差）与Taker（吃单承担成本）的博弈。当价差突然扩大，往往预示流动性危机，做市商需撤单避险。HFT策略本质是快速识别并利用市场的短暂失衡，同时防范逆向选择风险。

2026-01-15 23:23:08 827

原创以太坊私有链搭建与智能合约部署指南

本文是一份以太坊私有链搭建与智能合约投票部署的简明指南。首先介绍了CLI和RPC等基础概念，随后分步骤详细说明：1）选择并配置云服务器（推荐AWS EC2）；2）安装Go语言环境和Geth客户端；3）配置系统环境变量；4）使用Geth初始化私有区块链。指南特别强调了操作系统的选择（Ubuntu）、存储空间配置（建议16GB）以及关键命令的解释，如wget下载、tar解压和环境变量设置等。文中配有GitHub链接供参考完整文档和图片说明。

2025-10-04 16:52:05 1319 4

原创 Python五天极限复习

本文介绍了Python编程入门课程的基础内容，包括课程目标(重温编程基础、学习数据分析)、5天课程安排(从基础语法到文件可视化)。详细说明了Python环境搭建步骤(Python解释器+Pycharm IDE安装)，并演示了第一个Python程序的输入输出操作。同时讲解了变量命名规则、字符串处理方法(大小写转换、拼接、去空格)以及基本数学运算符的使用。课程强调实践操作，为后续数据分析应用打下基础。

2025-08-29 12:57:33 820

原创实战常用指令——dataframe相关操作

【代码】实战常用指令——dataframe相关操作。

2025-03-27 13:18:53 400

原创实战常用指令——配置环境

【代码】实战常用指令——配置环境。

2025-03-27 10:23:41 296

原创机器学习的通用工作流程

在某些情况下，机器学习可能不是理解数据的最佳方式。例如，对于音乐推荐引擎来说，矩阵分解（协同过滤）比深度学习的效果更好。当你了解完这个领域的研究现状之后，你要根据效果选择是否使用机器学习模型。一旦你开发出令人满意的模型配置，你就可以在所可用数据（训练数据和验证数据）上训练最终的生产模型，然后在测试集上最后评估一次。如果模型的性能与之前实验（验证集上）的相差不大，恭喜你这个模型是可用的。如果模型在测试集上的性能比验证集上相差很大，那么可能是你的验证流程不可靠，或者没有找到稳健拟合的位置。

2025-03-01 11:17:34 1859

原创如何提高神经网络的泛化能力？

详细内容及解决办法请见：神经网络模型如何改进模型拟合？-CSDN博客在解决完上述问题之后，你再需要考虑如何提高模型的泛化能力。以下提高神经网络的方法与改进模型拟合的有明显的先后顺序不同，提高神经网络的泛化能力的方法是并行的，并没有前后关系，但是有使用效果的倾向。

2025-02-25 17:05:06 958

原创机器学习中如何对数据集进行数据透视和预处理？

对于一个现有的数据集，你需要对数据集进行一个透视，从而了解问题的实际情况和数据的分布特征。一般对于分类和回归问题，都有以下的步骤进行数据透视，从而对数据集有一个更深入的理解。加载数据，检查形状和完整性，并通过抽样对数据集所处的业务背景有一个清晰的认识。检测并处理缺失值（删除或填充）。检测并处理异常值（删除、截断或平滑）。调整形状、转换数据类型、归一化/标准化、特征工程（可选）。

2025-02-23 18:27:01 1163

原创进行数据透视时如何抽取数据是合理的？

对于一个固定长度的数据集，抽取多少比例的数据进行审查取决于数据集的大小、审查的目的以及可用资源（如时间和计算能力）。

2025-02-23 15:58:07 743

原创神经网络模型如何改进模型拟合？

为了实现完美的拟合，你必须，因为你事先不知道界限在哪里，你必须穿过界限才能够实现拟合。针对上述所讲的在实际操作的不同过程产生的问题，我们有如下的解决办法。

2025-02-22 16:51:11 1349

原创如何对机器学习模型进行评估？

分类正确的样本占总样本的比例。

2025-02-20 11:52:17 1240

原创带有打乱数据的重复K折交叉验证

对于K折交叉验证可以这样理解，先将数据集按照索引升序进行排列，然后按照索引数量将数据集平均分成K段，从这K段中每次选出一段当作验证集进行验证，其他的当作训练集进行训练，得出分数后记录下来。特别值得注意的是all_mae_histories.append(mae_hitory)，这里每次添加的是一个列表，最后的all_mae_histories是一个二维的列表，每个子列表里面存储着对应模型的指标信息。事实上这样的架构是可以的，但更方便的是sklearn中的RepeatedKFold函数。

2025-02-20 11:49:05 1023

原创为什么机器学习能够解决问题？

这里你不需要提前完全掌握，只需要在阅读后面时遇到不理解的属于可以回来看这里的定义从而加深对问题的理解。模型训练的过程：模型按轮进行训练。k轮是k-1轮进行调整得来的。每轮的训练都是一个新模型。模型会尽可能的由粗到细的去找到数据分布的规律，也可以说是形状。模型训练的目的在于由局部去推导出整体。在模型的训练过程中，由于只有局部数据的信息，从极端的程度考虑，模型最后会记得所有局部数据的具体的分布。但这已经偏离了我们想得到的整体的分布。属于是拟合过火了。

2025-02-19 15:08:42 851

原创机器学习中过拟合问题出现的数据原因

例如一个样本有784个特征，那么我再增加784个随机特征来进行干扰，最终形成1568个特征用于表示一个样本，从而去测噪声数据对模型训练的影响。为了更科学的进行对比实验，我们同样引入784个没有意义的全零特征用于保持数据在训练时的输入形状的一致。发现其是一个三维张量，并且每个数字的取值范围是0-255，所以要对张量的形状进行改变并且要对里面的数值进行归一化处理从而辅助模型训练。可以看到，添加了噪声的数据在训练时在验证集产生的表现要普遍低于没有添加噪声的数据。的方法确定哪些特征是有用的哪些特征是无用的。

2025-02-19 11:27:22 930

原创机器学习基础

在阅读这里之前，需要了解机器学习（神经网络）架构的相关知识，以及数据是如何进行变换从而得到我们期望的结果的：从问题的逻辑上看，我对下面这张图进行详细的阐释：

2025-02-16 15:41:12 188

原创如何在终端退出python解释器

推荐使用exit()或quit()。快捷键Ctrl + D（或Ctrl + Z）是最快捷的方式。强制退出可以使用，但不建议常规使用。

2025-02-15 11:16:57 631

原创如何在vscode里面将一个项目的环境进行配置，或者选择一个新的环境

在 VSCode 中配置或选择项目环境通常涉及设置 Python 解释器、配置调试环境等。

2025-02-15 10:51:11 2549

原创使用一个简单的神经网络对波士顿房价进行回归

与分类问题不同的是，回归问题的预测值是连续值，而分类问题的预测值的离散值。

2025-02-12 17:32:40 989

原创什么是K折交叉验证

python。

2025-02-12 16:47:33 1234

原创 ImportError: Missing optional dependency ‘xlrd‘. Install xlrd ＞= 2.0.1 for xls Excel support Use pip

解决办法：

2025-01-11 11:46:06 414

原创如何在jupyter notebook切换环境

【最全指南】如何在 Jupyter Notebook 中切换/使用 conda 虚拟环境？_多个conda环境 notebook用的哪个-CSDN博客。

2025-01-11 11:18:10 230

原创认识波士顿房价数据集

不管将对数据进行什么样的操作，对数据本身的理解包括对生成数据的业务的理解总是首要的。假设我现在要使用Keras对波士顿房价数据集进行回归，那么我首先要去了解这个数据集是什么样子的。首先，需要找到数据集的来源，一般在来源网站会有对数据集的描述。使用bing或者google搜索引擎，将会出现高质量的数据集的可能的来源。其官网的指示文档如下所示：对于数据集的描述只有其有13个属性，目标值是某个位置房屋价格的中位数。并没有对属性当中的数值做过多的解释，但是做数据分析对数据的理解是十分必要的。

2025-01-07 09:57:55 1084

原创使用一个简单的神经网络实现路透社新闻数据集reuters数据分类

简单认识路透社数据集reuters-CSDN博客。

2025-01-06 17:27:25 1093

原创简单认识路透社数据集reuters

官网的信息如下：这个数据集一共有11228个样本，每个样本被单标签标记（每个样本只被打上一个标签），标签类别的总数是超过46。按照自然语言处理的流程，每条文本会被预处理，最终成为向量才能被使用。这个过程请见：它针对每条样本将文本转化成一个列表，列表当中的元素是对应词表的序号。这个词表是按照词频降序进行排列的。值得注意的是，load_data使用的词表最开始有三个功能类，分别代表填充padding、序列开始start of sequence、未知词unknow。

2025-01-06 11:21:52 1061

原创使用一个简单的神经网络实现IMDB影评数据分类

认识IMDB数据集-CSDN博客。请见这个博客。认识IMDB数据集-CSDN博客。

2025-01-05 21:45:51 1020 2

原创如何将IMDB中一句话编码成整数列表？如何将这个整数列表解码为文本？

这里引用的load_data使用的字典前面有padding、start of sequence、unknown三列作为功能列。这里这个数据集给我们的就是一个评论的编码列表，下面主要的工作是如何将一句话的编码列表依照序号与词的映射字典（“词”：词序号）将其转化为一句话。最后就能将列表train_data[0]第一个句子（只有数字索引），转化为正常的文本了。2、明确句子编码所用的字典和我想要进行翻译的映射字典的关系。我的目标是将一句话的映射列表（只有数字）转化为对应的话。3、映射字典的键值交换。

2025-01-05 16:12:44 983

原创认识IMDB数据集

不管将对数据进行什么样的操作，对数据本身的理解包括对生成数据的业务的理解总是首要的。假设我现在要使用Keras对IMDB数据集进行二分类，那么我首先要去了解这个数据集是什么样子的。首先，需要找到数据集的来源，一般在来源网站会有对数据集的描述。使用bing或者google搜索引擎，将会出现高质量的数据集的可能的来源。一般进入官网阅读官方指示文档。找到自己想要研究的数据集：开始仔细阅读，起码要对开发者针对这个数据集开发的函数和参数有清晰的理解。

2025-01-05 15:02:55 1765

原创如何使用TensorFlow编写线性分类器

我想要对自己随机生成的服从于二维正态分布的点进行分类。数据是由自己生成，分类器是由自己借助TensorFlow实现的简单的一层神经网络，在这里我称为线性分类器。

2025-01-04 17:07:32 973

原创如何利用多元正态分布生成随机数进行分类（仅数据生成和可视化）

多元正态分布是指一个随机向量的各个分量都服从正态分布，并且这些分量之间可以存在一定的相关性。一个 k维随机向量 X=(X1,X2,…从图形上理解，可以从下面几个方面进行理解：1、对于一个维度本身，可以从标准正态分布来理解，数据点数量的集中中心由这个维度的均值决定，数据点的分布的拉伸程度由这个维度的方差决定。越小的方差范围内，数据点的个数越多。以下是生成上面图的代码：2、由于是多维数据之间的分布，势必要描述每个维度和每个维度数据点之间的关系。这个关系是由相关性来描述。范围在[-1,1]。

2025-01-04 13:42:34 1508

原创 Tensorflow张量的创建与修改和张量的运算

构建一些tensorflow代码来实现一些训练神经网络的概念。构建张量，包括储存神经网络状态的特殊张量张量运算，比如加法、relu、matmul反向传播，一种计算数学表达式梯度的方法，在tensorflow中通过GradientTape对象实现。层，神经网络是多层顺序连接构建的模型损失函数，它定义了用于学习的反馈信号优化器，它定义了学习过程如何进行，即从损失函数出发如何去更新模型权重评估模型性能的指标，比如精度。

2025-01-03 21:14:19 1107

原创 jupyter notebook 在markdown进行文本格式设置

Jupyter 进行文字、图片格式编辑_jupyter文字编辑-CSDN博客。

2025-01-03 09:35:01 367

原创使用Colaboratory

苦逼学生党的Google Colab使用心得 - 知乎。

2025-01-03 09:30:49 162

原创 tensorflow1.4.1没有variable_scope、rnn.GRUCell、distribution

方法改为tf.compat.v1.variable_scope。在 TensorFlow 1.4.1 中，没有distributon。

2025-01-02 15:44:37 250

原创只使用tensorflow而不使用keras实现一个简单的神经网络

这是一个类，这个层主要实现数据变换的操作，即输入一个tensor，先与权重矩阵W相乘，然后加上b，最后经过激活函数activation运算，输出一个新的张量。为了实现这个操作，我们将这个任务划分成几个子任务：（1）定义需要输入的属性，用于支持数据变换这一核心操作。这些属性包括W、b、activation。（2）实现数据变换的操作。（3）为了更方便的在后续的操作中获取权重的更新，希望定义一个新方法返回W和b。以下是具体的实现：

2025-01-02 15:43:32 910

KDB交易信号的生成与测度

中文文本处理-中文停用词表（包含部分英语单词）

iris鸢尾花示例数据

哈工大停用词表（标点符号+中文）

空空如也