- 博客(64)
- 资源 (2)
- 收藏
- 关注
原创 【稳定可落地】马尔科夫链归因分析:抗扰动+正负贡献守恒
在特征归因、营销归因、风控建模、绩效分析等场景中,我们经常需要量化每个特征 / 渠道对最终目标的贡献大小。传统马尔科夫链归因算法虽然直观,但存在极易受小样本扰动、结果波动大、正负贡献无法守恒、难以业务汇报等痛点。本文将带你实现工业级稳定版马尔科夫链归因算法正向贡献权重之和严格等于 100%(便于汇报展示)正向贡献 + 负向贡献之和严格等于整体基线概率(数学自洽、结果可信)抗小样本扰动、结果高度稳定本文实现的稳定抗扰动马尔科夫链归因算法✅ 抗小样本扰动,结果高度稳定;
2026-03-27 13:00:00
257
原创 基于shap归因分析的蒙特卡洛反事实模拟模型算法
本文实现的「个性化SHAP归因+单人蒙特卡洛优化」,核心价值在于“摒弃全局平均,聚焦个体差异”——通过SHAP值精准定位每个乘客的核心影响特征,再通过随机模拟找到专属最优方案,解决了传统优化“一刀切”的问题。代码已全部调试通过,可直接运行,适合初学者学习SHAP归因、蒙特卡洛模拟的实战应用,也适合用于泰坦尼克号数据集的深度分析。如果需要进一步优化(如批量导出、模型更换),可根据拓展方向自行调整,或留言交流。
2026-03-25 08:50:51
305
原创 使用大模型智能判断期货交易时间:一个Python实战示例
本文演示了如何利用yangth库调用大语言模型,通过自然语言问答的方式智能判断期货交易时间。这种方法将复杂的规则判断任务转化为模型的理解任务,提供了更高的灵活性和潜在的智能化水平。开发者可以在此基础上,扩展其功能,例如判断特定交易所、特定品种的交易时间,或结合其他金融数据进行更复杂的监控与决策。请注意:示例中的yangth库为示意所用,实际开发中你需要替换为真实可用的大模型API(如OpenAI GPT、DeepSeek、文心一言等)的SDK,并根据其接口文档调整调用方式。核心思想——
2026-02-24 08:30:36
516
原创 智能新闻数据处理实战:三行代码获取实时新闻与AI摘要
方法将新闻获取与AI摘要生成完美结合,是系统的核心价值所在。# 生成单条新闻的摘要# 生成多条新闻的综合摘要summary = yth.get_lst_news_summary(limit=3, prompt="请总结主要观点")# 专注于投资角度的摘要limit=3,prompt="从投资角度分析潜在机会和风险"# 专注于技术趋势的摘要limit=2,prompt="提取关键技术点和创新点"技术特点:多新闻融合分析:当limit>1时,系统会自动将多条新闻内容融合,生成综合性摘要。
2026-02-09 08:53:16
528
原创 Hive日期函数应用之月份差值计算
一个常见的方法是首先将日期转换为 Unix 时间戳(如果它们还不是的话),然后通过计算时间戳之间的差值,并将这个差值转换为月份。然而,这种方法并不总是准确的,因为它假设每个月都有相同的天数(30或31天),而实际上不同月份的天数是不同的。或其他适当的函数来将它们转换为日期类型,或者确保它们是以 Hive 可以解析的日期格式存储的。函数来分别提取日期中的年份和月份部分,然后进行相应的计算。所以上面的代码输出后的数值是有小数点的,还需要进行转换。另外,请注意,这种方法不会考虑日期中的日部分。
2024-01-21 17:04:00
4013
原创 Hive表生成函数详细讲解
在Hive中,表生成函数(Table-Generating Functions, TGFs)允许用户从一行输入数据生成多行输出数据。这些函数特别有用于处理数组、映射和其他复杂数据类型。以下是EXPLODE()函数的详细讲解,包括案例和使用注意事项。需要注意的是,INLINE()函数在Hive中并不直接存在;相反,它可能是对其他数据库系统中类似功能的引用,或者是对EXPLODE()与结合使用时的概念性描述。
2024-01-18 08:45:00
368
原创 Hive转换函数详细讲解
在Hive中,转换函数用于将一个数据类型转换为另一个数据类型。以下是CAST()函数的详细讲解,包括案例和使用注意事项。需要注意的是,Hive中并没有CONVERT()函数,通常在其他数据库系统(如SQL Server)中使用CONVERT(),但在Hive中应使用CAST()来实现类型转换。
2024-01-17 10:00:00
1033
原创 Hive字符串函数讲解
在使用这些字符串函数时,请确保输入的数据类型与函数的要求相匹配,并注意处理可能的 NULL 值和边界情况。此外,由于 Hive 运行在 Hadoop 集群上,对于大规模数据的字符串处理可能会有一定的性能考虑,因此在使用这些函数时要考虑到这一点。Hive 提供了许多内建的字符串函数来处理文本数据。
2024-01-16 18:44:59
498
原创 Hive数学函数讲解
在使用这些函数时,请确保输入的数据类型与函数的要求相匹配,并注意处理可能的异常值和边界情况。此外,由于 Hive 运行在 Hadoop 集群上,对于大规模数据的计算可能会有一定的性能考虑,因此在使用这些函数时要考虑到这一点。Hive 是一个基于 Hadoop 的数据仓库工具,它支持类似于 SQL 的查询语言 HiveQL,并且提供了许多内建的数学函数来处理数值数据。下面我将逐一讲解您提到的这些数学函数,并提供一些使用案例和注意事项。
2024-01-16 18:41:22
947
原创 什么是欧拉筛??
欧拉筛(Euler's Sieve),又称线性筛法或欧拉线性筛,是一种高效筛选素数的方法。它的核心思想是从小到大遍历每个数,同时标记其倍数为合数,但每个合数只被其最小的质因数标记一次,从而避免了重复标记,实现了线性时间复杂度的素数筛选。,用于标记每个数是否为素数。然后,函数从 2 开始遍历到。最终,函数返回素数列表。在这个例子中,我们调用。来找出 100 以内的所有素数,并打印结果。小的数的倍数已经被之前的素数标记过了)。加入到素数列表中,并标记。的所有倍数为合数(从。,对于每个遍历到的数。
2024-01-15 18:03:21
1445
2
原创 Hive窗口函数整理
Hive 中的窗口函数允许你在结果集的一个特定“窗口”内对行进行计算。这些窗口可以是物理的(基于行在数据中的实际位置)或逻辑的(基于行的一些排序标准)。窗口函数在处理排名、计算累计和或计算移动平均值等问题时特别有用。这只是 Hive 中窗口函数的一个简短列表。当与其他 SQL 功能(如分区、排序和子查询)结合使用时,窗口函数可以非常强大。时,通常需要指定窗口范围,因为默认窗口可能不会包括所有行。
2024-01-15 17:40:14
956
原创 基于讯飞星火大语言模型开发的智能插件:小策问答
在大语言模型中,比如ChatGPT,"Token"这一概念具有重要的意义,是模型处理和理解文本的最小单位。而在中文中,通常以字或词作为token。其次,小策问答的使用方式非常灵活,用户不需要会员充值,只需要根据自己的使用量进行充值,而且积分永久有效,这大大降低了用户的使用成本。这种模型的训练过程涉及到大量的数据和复杂的算法,但最终的目标是让机器能够像人一样理解和使用语言。总的来说,小策问答是一款非常实用的GPT插件小工具,无论你是需要进行内容创作,还是需要进行语言理解,都可以从小策问答中找到帮助。
2023-11-10 08:59:26
1321
原创 机器学习算法-集成学习
Stacking,也被称为堆叠,是一种集成学习策略,它主要利用多个不同的基学习器进行模型的集成。其核心思想是,首先将数据集分成训练集和测试集,然后使用训练集训练得到多个初级学习器。接着,让这些初级学习器对测试集进行预测,并将输出值作为下一阶段训练的输入值,最终的标签作为输出值,用于训练次级学习器。为了尽可能降低过拟合的风险并提高模型的泛化能力,通常在Stacking算法中会采用交叉验证法或留一法来进行训练。
2023-11-09 19:16:28
1343
原创 人工智能领域迎来了一场革命性的变革,这场变革的主角就是ChatGPT
传统的搜索引擎往往只能根据关键词进行简单的匹配,而ChatGPT则能够理解用户的需求,提供更加精准的答案。例如,当用户询问“如何煮意大利面”时,ChatGPT不仅能够给出详细的步骤,还能根据用户的口味和需求提供个性化的建议。传统的客服模式往往需要大量的人工干预,而ChatGPT则能够通过自然语言处理技术,自动回答用户的问题,解决用户的问题。作为一种基于大规模预训练的语言模型,ChatGPT凭借其强大的自然语言处理能力,为我们的生活带来了前所未有的便利。
2023-11-09 13:15:02
431
原创 风险风控-逻辑回归理论基础
在求解逻辑回归模型参数时,常用的方法是极大似然估计,该方法通过最大化似然函数来估计模型参数,使得模型对训练数据的预测尽可能接近实际观察到的结果。在这个过程中,我们得到的计算结果通常是0-1之间的连续数字,这些数字代表了事件发生的可能性或概率。在逻辑回归中,最大似然估计是一种优化策略,其目标是寻找一组参数,可以最大化观察到的数据出现的概率。具体来说,这意味着我们希望找到一组参数,使得在给定这组参数的情况下,我们所预测的样本出现的概率是最高的。,其中p是事件发生的概率,x是特征的线性函数。
2023-11-06 15:10:15
937
原创 第一讲、风险风控建模-评分模型介绍
例如,在金融领域的风控建模中,我们可能会根据客户的个人信息(如年龄、性别、职业等),以及客户的信贷历史、还款行为等变量来构建评分模型。然后,通过加权求和或其他数学运算,我们可以得到每个客户的一个风险评分。此外,考虑到评分卡模型的统计学特性,例如其分箱与WOE编码可以降低数据的复杂度和特征的灵敏度,提升了模型的稳定性,这使得它特别适合用于处理大规模的零售业务。例如,在金融领域,评分模型常被用于客户的信用评估和风险识别,如A银行互联网贷款申请评分模型就是数据挖掘技术应用于客户风险识别的一个实例。
2023-11-06 08:44:57
1939
原创 SHAP算法在营销增益模型中的尝试
Shap算法,全称SHapley Additive exPlanations,即沙普利加和解释。它的核心思想是将输出值归因到每一个特征的shapley值上,以此来量化衡量特征对最终输出值的影响。这个算法是由华盛顿大学的研究者开发并开源的,因此被命名为SHAP。作为Python开发的"模型解释"包,SHAP可以解释任何机器学习模型的输出。其理论基础来源于合作博弈论,构建了一个加性的解释模型,所有的特征都被视为“贡献者”。
2023-11-02 08:44:46
1054
1
原创 利用chatgpt大语言模型来做数据预处理
数据预处理是机器学习中的一个重要步骤,包括数据清洗、数据转换、特征选择等。这些步骤通常需要人工进行,或者使用专门的数据预处理工具和库,如Python的Pandas库、Scikit-learn库等。今天我们将利用chatgpt(国内版本-小策智能问答)的辅助帮我们进行数据预处理,本文将用提问的方式进行!提问:介绍一下数据清洗以及python代码案例小策: 数据清洗是机器学习中的一个重要步骤,主要目的是去除或纠正数据中的噪声、错误和不完整信息,使数据更加准确和可用。
2023-11-01 08:58:33
1890
原创 利用python GPT-2写一个机器学习模型开发案例
GPT-2是一种属于Generative Pre-trained Transformers的算法,是自然GPT-2是一种属于Generative Pre-trained Transformers的算法,是自然语言处理(NLP)领域具有重要影响力的算法之一。GPT-2模型的结构与GPT一脉相承,适用于语言模型,即预测给定一系列上下文词语后,下一个词的概率。值得注意的是,每一代GPT模型的参数量都在不断增长,例如2019年发布的GPT-2拥有15亿参数,而2020年发布的GPT-3则达到了1750亿参数。
2023-11-01 08:36:34
530
原创 模型平稳性指标psi和csi
1. psi(Partial Autocorrelation Integrated): 它是对原始自相关函数进行积分得到的,可以衡量时间序列数据的平稳性。当psi大于0时,表示数据具有非平稳性。2. csi(Cumulative Sums of Squares): 它是对原始自相关函数的平方进行累加得到的,可以衡量时间序列数据的平稳性。当csi大于0时,表示数据具有非平稳性。应用:在金融、经济学等领域中,经常需要对时间序列数据进行平稳性检验,以确定数据是否符合假设条件,从而选择合适的模型进行建模。
2023-10-31 17:54:08
1573
原创 利用GPT来学习数据分析
Pandas提供了多种方法来处理这些问题,例如,我们可以使用fillna函数来填充缺失值,使用dropna函数来删除包含缺失值的行或列;Pandas的groupby函数是一个非常强大的工具,它可以让我们对数据进行分组,然后对每个组应用各种函数。最后,我们打印了DataFrame的内容。通过GPT,我们可以生成各种复杂的案例代码,从而在实践中学习和掌握Pandas的各种功能。提问:Pandas的groupby函数是一个非常强大的工具,它可以让我们对数据进行分组,然后对每个组应用各种函数,请给出示例。
2023-10-31 15:11:19
1604
原创 如何利用GPT大语言模型来进行A股投资分析
田扬神策系统是一款功能强大的策略回测工具。这款工具具有多种功能,包括数据加载、策略构建、策略验证、策略分析、策略部署以及新增的大语言模型问答功能。
2023-10-27 13:03:41
1270
原创 机器学习生成实验数据仿真-指定KS或AUC值
有的我们在做机器学习的时候,需要自己做一些实验。这时候我们经常会制造一些数据用于训练,比如我们要生成一个KS值等于66的样本数据,那么如何来操作呢。这样X,y的数据我们都生成了,然后我们再使用该数据进行画图,看一下是否满足KS为66呢。
2023-10-20 11:47:57
412
原创 lightgbm自定义的损失函数如何指定优化方向
custom_loss_function是将评估函数转化为损失函数的函数,它返回形式为 (eval_name, eval_result, is_higher_better) 的元组,其中is_higher_better指定了优化方向。需要注意的是,有些评估指标默认是递增的(如准确率),而有些评估指标默认是递减的(如均方根误差)。在使用fit方法时,可以查阅LightGBM文档以了解特定评估指标的默认优化方向,或者根据实际需求显式设定eval_metric参数的取值来指定优化方向。
2023-09-28 16:15:21
1064
原创 DeepFM推荐模型处理文本型特征的案例代码
在下面代码中,我们针对文本类型的特征使用了tf.feature_column.sequence_categorical_column_with_vocabulary_list创建了一个序列分类列,并将其转换为嵌入向量的embedding_column。请根据实际情况修改分词处理的方式和嵌入向量的维度。
2023-08-03 16:45:50
362
原创 lightgbm权重转pmml时候如何修复变量上下界问题
修复该问题有两种方法,一个是人为的在转pmml文件里把变量的上下界进行修改,比如年龄原值范围0-99,修改成-9999999999~9999999999这个范围;使用离群值处理方法:如果超出边界的值被视为离群值,并且不符合模型的预期行为,可以使用离群值处理方法来处理这些数据点。请注意,在处理超出边界的预测数据时,需要根据具体问题和数据的特点选择适当的方法。根据数据的分布和领域知识,对于超出边界的情况进行合理的处理,以确保预测结果的准确性和可靠性。如果存在,则可以对这些值进行修正或采取其他合适的处理方式。
2023-07-22 11:42:12
556
原创 一个模型多个目标变量如何构造
c. 损失函数与优化器:选择适当的损失函数来度量模型输出与目标变量之间的差异。前一段时间领导突发奇想,为了节能减排,想在一个机器模型中添加多个目标变量,达到一次训练,多向预测的效果。您可以使用常见的神经网络模型,如多层感知机(MLP),卷积神经网络(CNN)或循环神经网络(RNN),根据问题的特点进行调整。多输出模型(Multiple Output Model):构建一个具有多个输出层的神经网络模型,每个输出层对应一个目标变量。单输出模型:将两个目标变量合并为一个向量或矩阵,并将其作为单个输出层的目标。
2023-07-21 18:20:23
675
原创 神经网络变量重要性排序输出
它基于合作博弈理论中的 Shapley 值概念,将每个输入特征对于模型预测输出的贡献度进行量化。SHAP 值的计算过程相对复杂,需要遍历特征子集并进行差分计算。但是它提供了一种全局解释模型预测的方法,可以帮助理解神经网络中每个输入特征对于预测结果的影响程度。类,我们可以方便地在 Keras 神经网络中计算 SHAP 值,并可视化特征的重要性。这样可以帮助我们更好地理解神经网络的决策过程和各个输入特征的相对贡献。因为举例的数据是手写数据集案例,左边坐标轴相当于784像素点中的某个点对分类的重要性影响!
2023-07-12 16:19:52
3220
2
原创 优化机器学习回归问题评估函数:R方评估法
因此,选择使用R方作为回归模型的评估指标,通常是为了获得更全面和统一的性能评估。基线模型和随机模型:在使用R方进行模型评估时,应该考虑基线模型(如使用目标变量均值进行预测)和随机模型(如随机预测)的性能。如果目标变量的变异性很小或者数据存在严重的偏斜,R方可能会受到限制,并不一定能够准确地反映模型的性能。总而言之,使用R方作为模型评估指标时,需要综合考虑数据特点、基线模型、过拟合和欠拟合等因素,并与其他评估指标一起使用,以全面了解模型的性能。因此,R方的解释应该基于具体的上下文和其他模型进行比较。
2023-07-09 10:39:55
2012
原创 量化投资:小市值策略
当其他市场部分表现不佳时,小市值股票可能会有良好的表现,从而平衡整体投资组合的回报。敏捷性和机会灵活性:相对于大型公司,小市值股票的决策链条较短,管理层较灵活,能够更快地适应市场变化和利用机会。首先,我们选取了总市值有小到大排序的前50只股票,排除掉北交所、ST类股票,然后限定市盈率大于0,按照市净率有小到大选取。小市值股票是指市值较小的公司股票,通常具有较高的增长潜力和较高的风险。在等待了一段时间后,我们的策略回测完毕,一共成交了140笔,年化收益11%,总收益108%介绍一个小市值股票投资策略。
2023-07-08 16:18:35
1413
原创 量化投资-最好的选股策略竟是不用策略
2007-2016期间,股市经历大牛市、大熊市,还包括了横盘震荡等,所以该策略的模拟是值得深入研究。后续我们将对该选股策略进行迭代优化,毕竟不会真的用随机法来选股的,我们会辅助一些KDJ、MACD选股指标进行进一步的策略优化验证!为了更多地观察随机策略的作用,持仓策略我们给定的资金是100万,且当日最多可以买入100只股票(交易过程中,收益已经剔除了交易相关费用)我们模拟的周期是2007年1月至2016年12月,共计10年时间,交易次数达2万次,总收益率在190%左右,年化在19%左右!
2023-07-01 17:34:37
272
原创 机器学习模型中一个变量重要性很强但是测试集上分布不稳定,可以用随机赋缺失值的办法人为的给变量降权
通过随机赋缺失值,你可以将该变量的值替换为缺失值(如NaN),然后在训练模型时将缺失值作为一种特殊情况处理。通过观察模型在缺失值处理后的性能变化,可以评估原始变量的重要性是否降低。如果一个变量的重要性很高但分布不稳定,你可以尝试使用随机赋缺失值的方法来人为地给变量降权。这种方法可以帮助减少变量的过拟合和异常值的影响,并提高模型对其他特征的关注度。
2023-06-29 16:26:18
221
基于深度强化学习的 NBA 球员估值:一种采用 Shapley 归因的时间差分方法
2026-04-16
【篮球数据分析】基于深度强化学习与Shapley值归因的NBA球员价值评估:时空差异性贡献量化模型研究
2026-04-16
文件搜索神器,可以搜索各种类型的文件格式
2026-04-15
【网络资源分享】种子下载网站链接4个,目前是好使的
2026-03-20
大模型图片识别工具 - 批量图片文字识别神器
2026-03-18
每十分钟点击屏幕两次exe插件
2026-03-16
股票数据,券商(卖方)每天研报的盈利预测数据;提取日期位20220101-20240601
2024-06-09
股票数据:卖方盈利预测数据
2024-06-09
田扬神策量化投资模拟器
2023-06-24
身份证前六位对应县市地区及维度信息
2023-06-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅