- 博客(18)
- 问答 (1)
- 收藏
- 关注
原创 WSL 实现windows和linux交互
Windows Subsystem for Linux(WSL)是一项强大的技术,它消除了 Windows 和 Linux 之间的壁垒,为开发者和系统管理员提供了强大的工具,用于开发、管理和测试应用程序。Windows Subsystem for Linux(WSL)是一项强大的技术,它消除了 Windows 和 Linux 之间的壁垒,为开发者和系统管理员提供了强大的工具,用于开发、管理和测试应用程序。用wsl2的话,只要你是最新版的win10系统,或者win11系统,是可以调用英伟达GPU的。
2024-05-22 23:29:15 363 2
原创 如何才能在CSDN上发布付费内容
通过以上方式,您可以在CSDN平台上赚取一定的收入,但需要持续输出高质量的内容,积累影响力和粉丝基础才能取得更好的效果。5.付费课程:您可以在CSDN平台上发布付费课程,传授专业知识和技能,吸引学员购买课程获取收益。3.写作任务:CSDN平台会不定期发布写作任务,您可以参与任务并按要求完成,获取相应的报酬。
2024-05-22 23:26:52 399 1
原创 简单的金融沙箱
这里的思路是,类似于 CartPole 环境, 4 个历史价格代表金融市场的状态,当给定一个状态时,智能体可以决定是做多还是做空。该类的 主要方法是 .reset() 和 .step(),其中,.step() 方法会检查是否采取了正确的动作,相 应地定义奖励,并检查成功或失败。移动平均线 回归线 回合 总 奖 励 图 9-3:运行于 Finance 环境的 DQLAgent 的平均总奖励 通用 RL 智能体 本节为金融市场环境提供了一个类,该类模拟了 OpenAI Gym 环境的 API。
2024-03-17 18:35:08 1738 1
原创 DQL智能体
1 1 ( , ) max ( , ) t t t t a Q S A R γ Q S a = + + + 这里,St 是步骤(时间)t 的状态,At 是状态 St 采取的动作,Rt+1 是动作 At 的直接奖励, 0 < γ < 1 是折扣因子, m 1 ax ( , ) t a Q S a + 是给定当前策略 Q 的最优动作下的最大延迟奖励。然而,在更有趣或更复杂的设置中(如 CartPole 环境),状态 数量过多,无法通过穷尽的方式写出 Q,因此,Q 通常被理解为一个函数。➌ 探索率的衰减率。
2024-03-17 18:28:44 414 1
原创 神经网络智能体
In [37]: set_seeds(100) agent = NNAgent() In [38]: episodes = 500 In [39]: agent.learn(episodes) episode: 500/500 | score: 11 | max: 44 In [40]: sum(agent.scores) / len(agent.scores) ➊ Out[40]: 13.682212 | 第 9 章 ➊ 所有回合的平均总奖励。简单地说,智能体会避免采取错误的动作,但没有学会赢得比赛。
2024-03-17 18:20:07 787 1
原创 蒙特卡罗智能体
In [24]: if s < 0: a = 0 else: a = 1 In [25]: a Out[25]: 0 接下来可以使用此策略玩一回合 CartPole 游戏。强化学习 | 209 if done: break return treward In [27]: run_episode(env, weights) Out[27]: 41.0 因此,可以应用蒙特卡罗模拟来测试大量不同的权重。下面的代码模拟了大量的权重,检 查它们是成功还是失败,然后选择产生成功的权重。➋ 这些权重的总奖励。
2024-03-17 18:14:18 613 1
原创 OpenAI Gym
在众多环境中,有模拟经典强化学习问题的 CartPole 环境(或游戏),即把一根杆子直立 在推车上,目的是通过左右移动推车来学习平衡杆子的策略。在以下环境中,允许的动作由动作空间来描述,在这种情况下有两个动作空间,分别用 0 (向左推车)和 1(向右推车)来表示。在这种情况下,智能体可以走的步数仅取决于它的幸运 程度,其并未以更新策略的形式进行学习。通过交互获得数据 在监督学习中,假设训练数据集、验证数据集和测试数据集在训练开始之前 已经存在,而在强化学习中,智能体通过与环境交互来生成自己的数据。
2024-03-17 18:05:41 860 1
原创 强化学习的基本概念
环境 环境定义了当前的问题,可以是要玩的计算机游戏或要进行交易的金融市场。动作 智能体可以从一组(有限的)被允许的动作中选择一个动作。在计算机游戏中,被允许 的动作可能是向左或向右移动,而在金融市场中,被允许的动作可能是做多或做空。步骤 给定智能体的动作,环境状态会被更新,这样的更新通常被称为一个步骤。虽然在计算机游戏中,与游戏环境 的实时交互是通过相当短且相同的时间间隔(“游戏时钟”)来模拟的,但诸如与金融市 场环境交互的交易机器人则可以在更长且不同的时间间隔内采取动作。
2024-03-17 17:58:25 416 1
原创 Python进行金融特征的估计和分类,及如何构建深度RNN
这次我们使用 LSTM 层,即使对于相对少量的隐藏单 元和有限的几个训练轮数,样本外的准确率也相当高。➌ 训练标签的组频率。一个主要区别是训 练数据和测试数据必须以序列形式呈现给各自的方法,但是通过应用 TimeseriesGenerator 函数可以轻松实现这一点,该函数使用的生成器对象会将序列数据转换为 Keras 中的 RNN 能处理的数据。为模型创建提供的函数可以使用 SimpleRNN 层或 LSTM 层以及不同 的优化器等,还可以在浅层神经网络和深层神经网络的背景下对估计和分类问题进行建模。
2024-03-17 17:47:38 1861 1
原创 神经网络的优化器简介
Keras 包提供了一系列可与 Sequential 模型结合使用的优化器(optimizer)。不同的优化器 可能会表现出不同的性能,包括训练时间和预测准确率。以下 Python 代码使用不同的优化 器并对其性能进行了基准测试。在所有情况下,都应该使用 Keras 的默认参数化。样本外 性能变化不大。然而,不同优化器的样本内性能差异很大。➋ 使用给定的优化器拟合模型。➌ 评估样本内性能。➍ 评估样本外性能。
2024-03-17 17:33:50 417 1
原创 神经网络装包
避免过拟合的装袋方法已经在第 6 章中使用过,尽管仅用于 scikit-learn 的 MLPClassifier 模型。另外,Keras DNN 分类模型的包装器也会以 scikit-learn 的方式使用装袋,即 KerasClassifier 类。然而, 如前所述,结果是由类不平衡驱动的,正如这里反映的类别 0 的预测频率较高。分布式学习 从某种意义上说,装袋在许多神经网络(或其他模型)之间分配学习任务, 比如,每个神经网络只能看到训练集的某些数据和部分特征。
2024-03-17 17:30:27 409 1
原创 神经网络的正则化
图 7-5 显示了正则化下的训练集准确率和验证集准确率,这两个性能指标比以前看到的要 紧密得多。训练集准确率 验证集准确率 图 7-5:训练集准确率值和验证集准确率值(使用正则化) 当然,暂退和正则化可以一起使用。在这种情况下,训练集准确率和验证集准确率之间 的差异确实是最小的。图 7-6 显示了结合暂退和正则化时的训练集准确率和验证集准确率。训练集准确率 验证集准确率 图 7-6:训练集准确率值和验证集准确率值(同时使用暂退和正则化) 惩罚大权重 正则化通过惩罚神经网络中的大权重来避免过拟合。
2024-03-17 17:26:37 504 1
原创 神经网络的暂退
理想情况下,神经网络的行为应该类似:DNN 中的连接 不应变得太强,以避免过拟合训练数据。从技术上讲,Keras 模型在隐藏层间有额外的层管理暂退,主要参数是层的隐藏单元被丢 弃的速率。但是,两种性能指标之间的差异较小, 这通常是一种理想的情况。训练集准确率 验证集准确率 图 7-4:训练集准确率值和验证集准确率值(使用暂退)密集神经网络 | 181 刻意遗忘 Keras 的 Sequential 模型中的暂退模拟了人类的经历:忘记以前记忆的信息。这是通过在训练期间停用隐藏层的某些隐藏单元来实现的。
2024-03-17 17:23:46 397 1
原创 资本资产定价模型
类似的方法也可以应用于 CAPM 的实际测试。下面的 Python 代码会首先求出给定年份 的每只股票的 beta 系数,然后根据该股票的 beta 系数和市场投资组合的表现,计算其明年104 | 第 4 章 的预期收益率。106 | 第 4 章 2011年 2012年 2013年 2014年 2015年 2016年 2017年 2018年 2019年 图 4-9:单只股票的 CAPM 预期收益率与实际股票收益率 图 4-10 比较了 CAPM 预期股票收益率的平均值与实际收益率的平均值。
2024-03-17 17:14:03 408 1
原创 人工智能、机器学习、神经网络、超级智能和技术奇点
AlphaGo Zero 智能吗?如果没有对智能的具体定义,就很难说清楚。人工智能研究员 Max Tegmark(2017)将智能简明地定义为“完成复杂目标的能力”。 这个定义足够广泛,可以包含更具体的定义。鉴于该定义,AlphaGo Zero 是智能的,因 为它能够完成一个复杂的目标,即在围棋或国际象棋比赛中打败人类玩家或其他人工智能 体。当然,人类和一般的动物也因此被认为是智能的。 注 6: CPU 代表中央处理器,它是所有标准台式机或笔记本计算机中的通用处理器。超级智能 | 37 就本书而言,以下更具
2024-03-17 16:37:43 1697 2
原创 AlphaGO的亲兄弟AlphaZero
直到计算机国际象棋开发人员和国际商业机器公司(IBM)的硬件专家花了 12 年的时 间制造了一台名为“深蓝”的计算机,机器才能够击败当时的人类世界国际象棋冠军 Garry Kasparov。虽然“深蓝”输掉了第一场比赛, 但它赢了剩下 5 场比赛中的 2 场,另外 3 场比赛以双方协议的平局告终。Kasparov 在其书中提到现代智能手机上 的国际象棋应用时,如此说道: 再向前快进 20 年到今天,即 2017 年,你可以为你的手机下载任意数量的免费国 际象棋应用,这些应用可以与任何人类大师相媲美。
2024-03-17 16:28:59 331
原创 AlphaGo的由来
DeepMind 的一个团队使用其 AlphaGo 算法在围棋领域取得了突破性进展(参见 DeepMind 网站中的 AlphaGo 页面),Silver 等人在 2016 年的研究中将情况描述如下: 由于其巨大的搜索空间以及评估棋盘局势和落子的难度,围棋一直被视为人工智 能经典游戏中最具挑战性的游戏。同样,DeepMind 在 2017 年达到了一个非凡的里程碑:一个玩游戏的人工智能体,经过不 到 24 小时的自我游戏和训练,在 3 个经过数百年深入研究的棋盘游戏中达到了高于人类 专家的水平。
2024-03-17 16:24:03 391
原创 请问我在sql中设置变量报错了,看了半天也没看出来错误在哪
sql中设置变量可以采用如下语句的吧:set @day="2019/8/1";select * from table where XXX
2022-01-08 23:47:04 492
华为杯数学建模题:关于空气质量预报的二次建模
2024-03-19
基于深度学习的文本大数据辅助量刑规则挖掘
2024-03-19
大学生数学建模、研究生数学建模大赛的资料(华为杯、美赛等资料)
2024-03-19
288页Python核心知识手册
2024-03-19
Python编程入门教程
2024-03-19
stata进行计量经济学常用的命令及出来的结果
2024-03-19
绿色金融的相关数据展示
2024-03-19
绿色金融相关数据来源及指数聚合过程
2024-03-18
客户违约预测模型搭建,搭建客户违约预测模型
2024-03-17
机器翻译(洛谷P1540) 问题描述,内存中有M个单元,每个单元能存储一个单词和意译
2024-03-17
松弛-生活需要顺其自然
2024-03-14
过度拟合-不要想的太多
2024-03-14
贝叶斯法则-预测未来(不确定性、不全面性)
2024-03-14
博弈论-和别人的想法交互
2024-03-14
随机性-何时应用随机?
2024-03-14
最优停止理论 如何选择停止观望的时机?
2024-03-14
Boosting算法(提升法和Gradient Boosting)
2024-03-14
文本挖掘的常用方法及概念
2024-03-14
Uplift Modeling方法
2024-03-14
生存分析知识简介及数个案例分析
2024-03-14
大数据分析工具:SciPy
2024-03-14
异常检测常用的方法及算法
2024-03-14
爬虫实操代码,包含如何登录界面、如何自动获取短信验证码并填入、在界面如何获取数据并进行数据处理及写入excel详细操作
2024-03-13
定时播放音乐及铃声、音乐定时播放器(Python实现)
2024-03-13
C++中 C2091类错误 函数返回函数 怎么解决这个问题
2021-08-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人