自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 推荐系统-基于用户、商品

基于用户和商品的推荐协同过滤,推荐方案

2024-04-08 11:06:29 175

原创 强化学习模型对比(强化学习3)

可以看到,正常的 Q-learning 是对于所有的 action 去最大的 Q,而这里是对于从生成模型 G 中采样得到若干个行动,然后再做扰动,由此得到的一系列 action 中找一个 Q 值最大的。这样,我们评估(s, a)时,我们就可以把critic对 s 的评估结果就是 s 状态后续能获得的折扣期望,也就是我们的基线。注意哈:优势函数中,前一半是实际数据中的折扣期望,后一半是估计的折扣期望(critic心中认为s应该得到的分数,即critic对s的期望奖励),a'是在新状态s'下的最优动作。

2024-01-04 17:50:39 1264 1

原创 ReinforcementL之TSP1(指针网络)

softmax的改进。

2023-08-28 09:29:43 166

原创 pointer network指针网络

指针网络

2023-08-24 21:46:31 1555 1

原创 蚁群算法TSP

蚁群算法(Ant Colony Optimization,简称ACO)是一种启发式优化算法,模拟了蚂蚁在寻找食物时的行为,常用于解决组合优化问题,如旅行商问题、图着色问题等。

2023-08-21 14:21:57 103 1

原创 动态规划(强化学习2)

在强化学习中,"DP"是"Dynamic Programming"(动态规划)的缩写。Dynamic Programming(动态规划)是一种用于解决具有重叠子问题性质和问题的算法技术。在强化学习中,DP被用于解决最优控制问题,特别是在有限马尔可夫决策过程(Finite Markov Decision Process,简称MDP)中。动态规划算法通过在MDP中的状态空间上进行迭代,计算每个状态的最优值函数(Value Function)或最优策略(Policy)。

2023-07-31 20:27:25 634 1

原创 MC蒙特卡罗采样(强化学习1)

需要指出的是,虽然"Reinforce"是一个基本的强化学习算法,但在实践中,可能会采用更复杂的策略梯度算法,如Actor-Critic、Proximal Policy Optimization(PPO)等,以提高算法的效率和稳定性。N 是采样的轨迹数,Σ 表示对所有 t 的轨迹进行求和,G_t 是从时间步 t 开始的回报序列,计算方法可以是累积回报或使用折扣因子来加权回报。假设有一个正方形,边长为2个单位,它恰好包围住了一个圆,该圆的半径为1个单位,因此圆的直径也是2个单位。

2023-07-31 17:55:50 277 1

原创 AI中的概率

在CRF中,我们定义输入序列和输出标签序列的联合概率分布。我们建立一个条件随机场,其中输入是特征序列,输出是标签序列。假设我们有一组特征函数和权重,它们可以表示输入序列和输出标签之间的条件概率。

2023-07-19 16:11:52 277

原创 TSP的Reinforcement learning solution

TSP强化学习

2023-07-19 14:58:20 552

原创 textcnn一张图说清楚明白

论文:https://arxiv.org/abs/1408.5882https://arxiv.org/abs/1510.03820

2021-10-18 19:26:30 582

原创 中文NER2 之 Fast and Accurate Entity Recognition with Iterated Dilated Convolutions

中文NER2 之 Fast and Accurate Entity Recognition with Iterated Dilated Convolutions提升速度:学习内容:学习时间:学习产出:提升速度:传统的Bi-LSTM加CRF的方式,虽然取得了很好的NER结果,但是无法很好的利用GPU的并行处理能力。所以这篇文章提出了ID-CNNs。不像LSTM处理长度N的字符串,需要时间O(N),ID-CNNs能够提供一个固定深度的卷积去并行计算整个文本。最后的效果,相比于bi-lstm-crf, 是1

2021-08-03 13:42:31 502

原创 中文NER1 之 simplify the usage of Lexicon in Chinese NER

这里写自定义目录标题ACL-simplify the usage of Lexicon in Chinese NER中文NER难的问题通用的NER结构中文NER的Lattice-LSTM本论文的方法ACL-simplify the usage of Lexicon in Chinese NER近期有个项目跟提取地址实体有关,所以系统性的把ner相关研究重新review了一遍,顺便记录下笔,方便以后查询。这篇论文下载https://arxiv.org/abs/1908.05969这篇论文的启发是,利用

2021-08-02 11:40:56 1456 1

原创 QuickSearch_notes

QuickSearch_notesfuzzymatcher:Typesense:Algolia DocSearch:Apache Lucene Core:Apache Nutch:srchx:wukong:PISA:RediSearch:Ds2i:MeTA:Apache Nutch:fuzzymatcher:https://github.com/RobinL/fuzzymatcher打分:Probabilistic record linkage是合并连个dataframe, 对key的打分Type

2021-08-01 18:03:54 364

原创 ERNIE3随笔

不像业界流行的预训练测略,用共享的Transformer网络实现不同的完形填空任务和用task-specific的自注意mask去学习context的预测条件。ERNIE3.0设计了一种新的Continual Multi-Paradigms Unified Pre-training Framework。作者提出,不同的文本任务依赖于相同的连续潜在抽象特征,比如词信息/语法信息,但是顶层的具体特征不是这样的。NLU中利用不同的位置去学习语义的连贯性,但是在NLG中缺是需要更多的连续位置信息。受multi-..

2021-07-15 23:23:32 711 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除