清风慢行-CSDN博客

原创推荐系统-基于用户、商品

基于用户和商品的推荐协同过滤，推荐方案

2024-04-08 11:06:29 175

可以看到，正常的 Q-learning 是对于所有的 action 去最大的 Q，而这里是对于从生成模型 G 中采样得到若干个行动，然后再做扰动，由此得到的一系列 action 中找一个 Q 值最大的。这样，我们评估（s, a）时，我们就可以把critic对 s 的评估结果就是 s 状态后续能获得的折扣期望，也就是我们的基线。注意哈：优势函数中，前一半是实际数据中的折扣期望，后一半是估计的折扣期望（critic心中认为s应该得到的分数，即critic对s的期望奖励），a'是在新状态s'下的最优动作。

2024-01-04 17:50:39 1264 1

原创 ReinforcementL之TSP1（指针网络）

softmax的改进。

2023-08-28 09:29:43 166

原创 pointer network指针网络

指针网络

2023-08-24 21:46:31 1555 1

原创蚁群算法TSP

蚁群算法（Ant Colony Optimization，简称ACO）是一种启发式优化算法，模拟了蚂蚁在寻找食物时的行为，常用于解决组合优化问题，如旅行商问题、图着色问题等。

2023-08-21 14:21:57 103 1

原创动态规划（强化学习2）

在强化学习中，"DP"是"Dynamic Programming"（动态规划）的缩写。Dynamic Programming（动态规划）是一种用于解决具有重叠子问题性质和问题的算法技术。在强化学习中，DP被用于解决最优控制问题，特别是在有限马尔可夫决策过程（Finite Markov Decision Process，简称MDP）中。动态规划算法通过在MDP中的状态空间上进行迭代，计算每个状态的最优值函数（Value Function）或最优策略（Policy）。

2023-07-31 20:27:25 634 1

原创 MC蒙特卡罗采样（强化学习1）

需要指出的是，虽然"Reinforce"是一个基本的强化学习算法，但在实践中，可能会采用更复杂的策略梯度算法，如Actor-Critic、Proximal Policy Optimization（PPO）等，以提高算法的效率和稳定性。N 是采样的轨迹数，Σ 表示对所有 t 的轨迹进行求和，G_t 是从时间步 t 开始的回报序列，计算方法可以是累积回报或使用折扣因子来加权回报。假设有一个正方形，边长为2个单位，它恰好包围住了一个圆，该圆的半径为1个单位，因此圆的直径也是2个单位。

2023-07-31 17:55:50 277 1

原创 AI中的概率

在CRF中，我们定义输入序列和输出标签序列的联合概率分布。我们建立一个条件随机场，其中输入是特征序列，输出是标签序列。假设我们有一组特征函数和权重，它们可以表示输入序列和输出标签之间的条件概率。

2023-07-19 16:11:52 277

原创 TSP的Reinforcement learning solution

TSP强化学习

2023-07-19 14:58:20 552

原创 textcnn一张图说清楚明白

论文:https://arxiv.org/abs/1408.5882https://arxiv.org/abs/1510.03820

2021-10-18 19:26:30 582

原创中文NER2 之 Fast and Accurate Entity Recognition with Iterated Dilated Convolutions

中文NER2 之 Fast and Accurate Entity Recognition with Iterated Dilated Convolutions提升速度：学习内容：学习时间：学习产出：提升速度：传统的Bi-LSTM加CRF的方式，虽然取得了很好的NER结果，但是无法很好的利用GPU的并行处理能力。所以这篇文章提出了ID-CNNs。不像LSTM处理长度N的字符串，需要时间O(N),ID-CNNs能够提供一个固定深度的卷积去并行计算整个文本。最后的效果，相比于bi-lstm-crf，是1

2021-08-03 13:42:31 502

原创中文NER1 之 simplify the usage of Lexicon in Chinese NER

这里写自定义目录标题ACL-simplify the usage of Lexicon in Chinese NER中文NER难的问题通用的NER结构中文NER的Lattice-LSTM本论文的方法ACL-simplify the usage of Lexicon in Chinese NER近期有个项目跟提取地址实体有关，所以系统性的把ner相关研究重新review了一遍，顺便记录下笔，方便以后查询。这篇论文下载https://arxiv.org/abs/1908.05969这篇论文的启发是，利用

2021-08-02 11:40:56 1456 1

原创 QuickSearch_notes

QuickSearch_notesfuzzymatcher：Typesense：Algolia DocSearch：Apache Lucene Core：Apache Nutch：srchx：wukong：PISA：RediSearch：Ds2i：MeTA：Apache Nutch：fuzzymatcher：https://github.com/RobinL/fuzzymatcher打分：Probabilistic record linkage是合并连个dataframe, 对key的打分Type

2021-08-01 18:03:54 364

原创 ERNIE3随笔

不像业界流行的预训练测略，用共享的Transformer网络实现不同的完形填空任务和用task-specific的自注意mask去学习context的预测条件。ERNIE3.0设计了一种新的Continual Multi-Paradigms Unified Pre-training Framework。作者提出，不同的文本任务依赖于相同的连续潜在抽象特征，比如词信息/语法信息，但是顶层的具体特征不是这样的。NLU中利用不同的位置去学习语义的连贯性，但是在NLG中缺是需要更多的连续位置信息。受multi-..

2021-07-15 23:23:32 711 2

weixin_49379140的博客