- 博客(158)
- 收藏
- 关注
原创 专业学习|经济学与管理学常用分析工具详解
文章梳理经济学与管理学常用分析工具,经济学含理论建模(如最优化、博弈论)、实证分析(计量经济学、实验经济学)、行为分析工具;管理学有战略决策(SWOT、五力模型)、运营管理、数据分析工具,还论及交叉应用、工具差异与选择逻辑。
2025-05-24 15:00:00
676
原创 人工智能|这就是大语言模型能够理解世界的原因
博客探讨大语言模型理解世界的原因,指出“双重下降”现象颠覆传统理论,大模型通过“彩票假设”筛选极小有效子网络,借梯度下降学习规律;回应常识质疑,提及具身智能等方向,强调其本质是用“规模+剪枝”践行奥卡姆剃刀,开辟AI新范式。
2025-05-24 11:00:00
39
原创 强化学习|一文读懂深度Q网络(DQN)
深度 Q 网络(deep Q-network,DQN):基于深度学习的 Q 学习算法,其结合了价值函数近似(value function approximation)与神经网络技术,并采用目标网络和经验回放等方法进行网络的训练。状态-价值函数(state-value function):其输入为演员某一时刻的状态,输出为一个标量,即当演员在 对应的状态时,预期的到过程结束时间段内所能获得的价值。状态-价值函数贝尔曼方程(state-value function Bellman equation):基于状
2025-05-08 14:00:00
1420
原创 强化学习|一文学懂actor-critic算法(A2C、A3C等)
A2C是同步训练下的高效 AC 算法,通过优势函数优化稳定性;A3C通过异步并行加速 A2C,适合分布式训练;路径衍生策略梯度则针对连续动作,利用 Q 学习直接求解最优动作,是确定性策略梯度(如 DDPG)的早期思想雏形。三者均属于演员 - 评论员框架,核心差异在于优化目标(优势函数 / 异步机制 / 连续动作处理)和应用场景,共同推动了强化学习在复杂控制任务中的落地。
2025-05-08 12:00:00
865
原创 强化学习|一文读懂近端策略优化(proximal policy optimization,PPO)
近端策略优化(proximal policy optimization,PPO) 可以通过重要性采样把同策略换成异策略,但重要性采样有一个问题:如果 pθ (at|st) 与 pθ′ (at|st) 相差太多,即这两个分布相差太多,重要性采样的结果就会不好。怎么避免它们相差太多呢?这就是 PPO 要做的事情。近端策略优化(proximal policy optimization,PPO):避免在使用重要性采样时由于在 θ 下的 pθ (at|st) 与在 θ′ 下的 pθ′ (at|st) 相差太多,导致
2025-05-08 09:00:00
974
原创 AI大模型|图解deepseek的grpo原理
本文介绍了一种名为GRPO(Group Relative Policy Optimization)的算法,由DeepMind提出,这是一种群体相对优化策略,旨在通过特定的loss函数优化模型。通过图解与代码debug的方法,详细讲解了如何应用GRPO训练模型,涵盖了数据准备、模型参数更新、奖励机制、文本生成、KL散度与优势计算等核心环节。
2025-04-28 11:00:00
85
原创 强化学习|Q—learning的学习梳理
Q-Learning 是强化学习中最基础且应用广泛的算法之一,其核心在于通过 TD 更新和 ε- 贪心策略平衡 “利用现有知识” 与 “探索新可能性”。尽管在复杂场景中需结合函数近似等技术,但它为理解强化学习的 “试错 - 反馈 - 优化” 机制提供了清晰的入门路径,尤其适合离散动作空间和中小规模状态空间的问题。通过代码实践(如一维探索、二维迷宫)可直观感受其学习过程,为进一步学习深度强化学习(如 DQN、PPO)奠定基础。
2025-04-28 08:00:00
1163
原创 强化学习|lesson2:强化学习方法汇总
强化学习领域探讨了多种方法,包括模型自由和模型基于的策略。模型自由方法直接从反馈中学习,无需理解环境;而模型基于方法通过建立环境模型,增强预测能力。基于概率的方法聚焦于动作的概率,旨在最大化成功概率;相比之下,基于价值的方法侧重于选择具有最高价值的动作,追求最优策略。讨论还涉及了按回合更新与单步更新的策略,以及在线学习与离线学习的区别。以Q-learning、Policy Gradients、Deep Q-Networks为例,这些算法展示了如何在不同场景下应用这些方法,鼓励探索强化学习的深度和广度。
2025-04-27 14:36:02
692
原创 强化学习|什么是强化学习?
强化学习是一种通过不断尝试和错误反馈来学习规律、实现目标的机器学习方法,类似于计算机通过虚拟老师(如反馈分数)来决定哪些行为在特定环境中能获得高分或避免低分。与监督学习不同,强化学习无需预设数据和标签,而是在实际环境中持续探索和学习。实际应用中,如AlphaGo利用强化学习在围棋比赛中取得胜利,展示了其强大潜力。强化学习中提及的算法,如Q-Learning和Deep Q Network,通过模拟环境来优化决策过程。虚拟环境的使用为强化学习提供了实验平台,使算法能在安全、可控的条件下进行测试和优化。
2025-04-27 13:30:03
1355
原创 专业学习|改进的多种群竞争粒子群优化算法
本文提出了改进的多种群竞争粒子群优化算法(IMCPSO),通过Logistic映射初始化粒子速度和位置,引入混沌性提高多样性;将种群分为主从种群,通过竞争与合作策略提升寻优能力;采用参数自适应更新策略动态调整惯性权重和学习因子,以适应问题变化;引入种群多样性引导策略,根据多样性值选择速度更新方式,避免局部最优解;最后,加入粒子变异机制,进一步增强群体的随机性和探索能力,从而提高粒子群的全局搜索能力和收敛速度,降低陷入局部最优解的风险。
2025-03-19 10:23:40
834
原创 专业学习|多线程、多进程、多协程加速程序运行
多线程:适用于 I/O 密集型任务,资源消耗较小,但受限于 GIL。多进程:适用于计算密集型任务,可以绕过 GIL 的限制,但资源消耗较大。多协程:适用于高并发的 I/O 密集型任务,资源消耗最小,但需要异步编程模型的支持。根据具体任务的特点选择合适的并发模型,可以显著提高程序的性能和效率。
2025-03-07 19:20:14
517
1
原创 云服务器概览(什么是?有哪些?怎么选?)
本文介绍了云服务器(Elastic Compute Service,简称 ECS)的基本概念、特点、分类及如何根据需求选择合适的云服务器类型。云服务器是一种基于云计算技术的虚拟服务器,允许用户按需租用计算能力、存储空间和网络带宽,具有弹性扩展、按需付费和高可用性等特点。与传统物理服务器相比,云服务器无需购买和维护硬件,更加灵活且成本效益高。云服务器的配置通常包括 CPU 核心数(如 1 核)、内存大小(如 2G)、存储容量(如 40G SSD 或 50G SSD)和网络带宽(如 1M)。这些配置直接影响服
2025-02-24 13:13:25
1190
原创 专业学习|通过案例了解蒙特卡罗模拟实操步骤与含义
蒙特卡罗模拟是一种基于随机采样的数值计算方法,广泛应用于金融、工程、物理和计算机科学等领域,用于解决具有不确定性和复杂概率分布的问题。它通过多次随机抽样逼近系统的真实行为或目标函数的期望值,具有适应性强、直观灵活和结果稳定的特点,但也存在计算成本高、收敛慢和依赖输入分布准确性等局限性。蒙特卡罗方法在金融风险评估、工程可靠性分析、物理科学中的数值计算以及项目管理与决策分析等场景中发挥重要作用。
2025-02-05 22:37:31
1856
原创 专业学习|一文了解并实操自适应大邻域搜索(讲解&代码)
自适应大邻域搜索算法(ALNS)是一种用于解决组合优化问题的元启发式算法,通过破坏和修复操作生成大邻域并结合自适应机制动态调整操作权重,从而有效跳出局部最优解。它基于大邻域搜索(LNS)的思想,通过部分解的破坏与修复生成新解,并根据操作的历史表现动态调整选择概率。ALNS具有全局搜索能力强、自适应特性显著以及灵活性高的优点,适用于车辆路径规划、调度和资源分配等多种组合优化问题,但也存在参数调整复杂和计算复杂度高的缺点。
2025-02-05 22:36:43
910
原创 专业学习|最优化理论(目标函数、约束条件以及解题三板斧)
最优化理论是数学的一个重要分支,旨在通过设计目标函数和约束条件,在一定约束下找到目标函数的最大值或最小值。它在机器学习中尤为重要,是更新模型参数、最小化损失函数的核心方法。优化问题分为离散优化和连续优化,以及凸优化和非凸优化。求解方法包括解析法、数值法和启发式/元启发式算法。范数作为优化中的重要工具,用于量化向量和矩阵的“大小”,并在正则化中发挥关键作用。
2025-01-20 11:50:24
2129
原创 专业学习|动态规划的解题方法——逆推法等
动态规划(Dynamic Programming, DP)是一种解决最优化问题的算法技术,它通过将复杂问题分解为更简单的子问题,并存储这些子问题的解以避免重复计算,适用于具有重叠子问题和最优子结构的问题。DP方法包括线性DP、区间DP、背包DP等类型,广泛应用于从最长上升子序列到博弈游戏如Nim的各种问题中。核心求解策略是穷举所有可能情况但利用了子问题间的关联进行高效计算,区别于直接枚举所有可能性的方法。此外,回溯算法通过尝试所有选择来找到解决方案,而逆推法则从结果反向推导条件,两者均可结合剪枝等技术进行优
2025-01-06 16:06:28
1233
原创 专业学习|BFS算法介绍以及实现框架
广度优先搜索(BFS)是一种利用队列按广度优先逐层遍历图形数据结构的算法,通过标记避免重复访问,其时间复杂度为O(n + m),空间复杂度为O(n) ,常用于无权图最短路径查找、网络结构遍历、图连通性检测及状态空间搜索等场景。
2025-01-06 15:53:59
910
原创 AI大模型学习笔记|多目标算法梳理、举例
多目标优化是一个复杂的领域,涉及许多不同的方法和视角。选择合适的方法通常取决于具体问题的性质、目标之间的关系、决策者的偏好和可用的计算资源。
2024-12-13 22:50:12
1677
1
原创 AI大模型学习笔记|神经网络与注意力机制(逐行解读)
本文深入探讨了神经网络与注意力机制的基础,以及神经网络参数训练的过程。以鸢尾花数据集为例,详细讲解了通过反向传播算法调整网络权重和偏置以最小化损失函数的方法。讨论涵盖了权重初始化、损失函数定义、选择优化器、前向传播和反向传播,以及模型性能评估。特别强调了从线性函数到多分类问题时,使用Softmax函数和交叉熵损失函数进行优化的重要性。本文细致讲解机器学习模型原理及其实现过程对初学者的必要性,确保模型在训练和测试集上的表现,并讨论了模型收敛的判断标准,旨在鼓励深入理解机器学习的核心概念。
2024-12-13 11:10:28
913
原创 AI大模型学习笔记|人工智能的发展历程、智能体的发展、机器学习与深度学习的基本理论
本次学习集中于人工智能的基础,涵盖其历史、智能体应用、机器与深度学习原理,及实际应用案例。通过展示QA模型和翻译模型,演示技术的实现过程。此外,还介绍了Paper with Code网站,用以探索研究项目,并触及声音、信号处理、自然语言处理及图像处理等领域。
2024-12-09 15:39:01
353
原创 论文研读|信息科技风险管理模型的主要内容、定位、目标企业、风险管理机制, 以及相应的风险评估流程和风险应对策略
本文研究了国际上普遍使用的风险管理基本模型、并针对主流的信息科技风险管理的框架进行研究、分析,重点研究当前信息科技风险管理模型的主要内容、定位、目标企业、风险管理机制, 以及相应的风险评估流程和风险应对策略,作为商业银行数据中心风险管理研究 工作的基础。
2024-12-08 17:31:51
1312
原创 专业学习|马尔可夫链(概念、变体以及例题)
本篇博客主要介绍了马尔可夫链以及动态规划之间的联系和区别,还结合例题讲解了比较前沿的马尔可夫链模型。
2024-10-18 10:16:44
4717
原创 生产力工具|vscode for mac的安装python库和使用虚拟环境(一)
本博客主要介绍如何在vscode中安装并配置虚拟环境以及在虚拟环境中安装对应的库。
2024-10-18 10:15:04
7932
1
原创 专业学习|随机规划概观(内涵、分类以及例题分析)
本文主要介绍了随机规划模型的概念、分类以及每种分类的优缺点,其中重点讲解了两阶段随机规划模型、两阶段鲁棒优化模型等。
2024-09-24 08:31:02
2431
1
原创 专业学习|《随机过程》学习笔记(二)(定义、分类及相关过程)
本片博客继上一篇学习指引文之后,强调介绍了随机过程的分类,让读者能对随机过程、随机过程的分类有一个系统了解,其中还补充了一些基础知识以便读者了解推导过程。
2024-09-22 19:56:46
2318
原创 专业学习|动态规划(概念、模型特征、解题步骤及例题)
本文详细介绍了动态规划的基本构成、分类扩展、例题及解题步骤,通过本文可建立对动态规划的总体认识。
2024-09-22 14:11:52
1999
原创 专业学习|随机规划概观(性质、针对问题与分类)
本文主要介绍随机规划、多目标随机规划模型能解决什么问题(什么性质的问题)、包含什么变体、优缺点是什么。最后并介绍了随机规划的多种最新解法。
2024-09-18 10:12:53
1726
原创 专业学习|GERT网络概览(学习资源、原理介绍、变体介绍)
本文主要对GERT(Graphical Evaluation Review Technique,图示评审技术)进行了一个详细的介绍,以便学者能够了解该方法能解决什么问题,以及相关原理。
2024-09-17 13:01:03
2232
1
原创 专业学习|系统动力学概观(方法特色、构成要素、建模步骤)
本文介绍了系统动力学的构成要素、建模过程以及学习资源,其中着重介绍了系统动力学的方法特色以及建模要素。
2024-09-16 12:20:16
11823
3
原创 生产力工具|vscode for mac安装及过程留存
本片博客介绍自己在最新版的mac上搭建vscode以及python环境时所注意的问题以及具体操作步骤。
2024-08-01 18:39:02
1643
原创 问题解决|如何优雅展示层级或关联数据?
本篇博客为学习笔记和自己整理所得,图片出处请见文中,主要僵尸了热图与其他图表的组合以及一些组合图标,可用于展示更多维度数据(若有侵权,联系删除)。
2024-07-29 21:03:44
2636
原创 专业学习|系统建模与仿真的基础概念知识合集
该篇博客主要介绍系统建模与仿真的基础知识,从系统、模型喝仿真三个反面来介绍系统建模,并对系统建模的一般方法和步骤进行了介绍。
2024-07-18 18:16:17
1374
2
原创 问题解决|Python 代码的组织形式与编码规范
Python的编程架构由函数、类、模块、包和库组成,支持代码的组织、重用和扩展。编码规范遵循PEP 8,包括命名规范(如函数用小写和下划线,类用大写驼峰式)、空格使用、注释(文档字符串和函数说明)、清晰的代码布局(缩进、行长、空行)和编程建议(异常处理、返回结果一致性、布尔值直接使用)。这些规范提升了代码的可读性和可维护性。
2024-07-09 12:01:52
894
原创 问题解决|GitHub项目仓库常用文件夹解释及下载
本篇博客介绍如何解读github项目的目录,以及如何下载github上面的项目,包含下载全部文件和仅下载单个文件。
2024-07-09 10:12:13
3259
原创 生产力工具|Endnote X9如何自动更新文件信息
本篇博客主要回顾EndNote如何自动导入文献,另外在文章末尾备注了入门endnote的绝佳文章。
2024-07-08 15:46:04
1043
原创 生产力工具|VS Code安装及使用指南
本篇博客介绍了VS code的安装步骤,以及有关的基础知识,并讲解了除项目部署外其余可能用到的小技巧,如‘快捷操作、扩展等。重点在于通义灵码的安装以及使用。
2024-07-06 16:55:04
2171
Academic Inquiry-Research Trends on Big Data in Marketing
2023-07-25
Social enterprise in South Korea: History and diversity
2023-07-16
优化建模中的随机变量假设
2024-09-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人