桔子毛皮-CSDN博客

原创 C编译器报错-control reaches end of non-void function [-Werror=return-type]

当非空返回函数退出时没有返回值

2024-10-12 20:55:45 1484

原创万字长文带你入门强化学习

强化学习、再励学习、评价学习或增强学习RL强化学习是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略来实现收益最大化或实现特定目标的问题。概括强化学习是一种机器学习方法强化学习关注智能体与环境之间的交互强化学习是为了追求最大收益或实现特定目标智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖励来指导行为，目标是使智能体获得最大的奖励。

2024-06-26 18:30:31 1439

原创 GumTree-阅读笔记

GumTree算法

2024-06-05 15:46:44 1175

原创 Fine-grained and Accurate Source Code Differencing

软件演化的核心是对源代码文件进行的一系列编辑操作，称为编辑脚本。由于软件系统是逐版本存储的，因此必须根据这些版本计算编辑脚本，这是一项复杂的任务。现有方法通常只使用添加行和删除行操作来计算文本粒度的编辑脚本。然而，从这样的编辑脚本推断语法变化是很困难的。由于移动代码是编辑代码时经常执行的操作，因此也应考虑到这一点。在本文中，我们通过引入一种算法来解决这些问题，该算法在抽象语法树粒度（包括移动操作）下计算编辑脚本。我们的目标是计算简短且接近原始开发人员意图的编辑脚本。

2024-06-05 15:38:39 1156

原创 Go for a Walk and Arrive at the Answer Reasoning Over Paths in Knowledge Bases using Reinforcement L

我们的rl基配方具有许多理想的性能。首先，MINERVA具有采用可变长度路径的内置灵活性，这对于回答需要复杂推理链的更难的问题非常重要(Shen et al .， 2017)。其次，MINERVA不需要预训练，通过强化学习从头开始在知识图上进行训练;不需要其他监督或微调，这代表了RL在NLP中的先前应用的重大进步。第三，我们基于路径的方法计算效率很高，因为通过在查询实体周围的小邻域中搜索，它避免了像以前的工作那样对知识库中的所有实体进行排序。最后，我们的智能体发现的推理路径自动形成其预测的可解释来源。

2024-06-05 15:23:57 861