- 博客(5)
- 收藏
- 关注
原创 neo4j 5.26版本下载安装配置步骤
操作系统:Windows 10/8/7、macOS 10.13或更高版本、Linux(Ubuntu、CentOS、Red Hat 等)JDK 17 或更高版本(Neo4j 5.26开始需要JDK 17或更高版本。如果您使用的是较旧的JDK版本,则需要升级到JDK 17或更高版本以运行Neo4j 5.26)64位操作系统。
2026-02-08 20:36:28
610
原创 强化学习、PPO和GRPO算法之间的关系
强化学习和监督学习是机器学习中的两种不同的学习范式,强化学习让智能体通过与环境的交互,学习到一个最优策略,以最大化长期累积奖励,如下图在这里引入了几个关键参数:状态(State:表示当前的状态行动(Action:表示下一步操作奖励(Reward:根据行动导致环境改变,由规则给出的评分智能体(Agent):执行行动的主体(如机器人、游戏 AI 等)环境(Environment):智能体所处的外部场景(如游戏地图、机器人工作空间等)策略(Policy)
2026-01-18 19:02:58
602
原创 大模型学习—总结LLM模型结构上的变化
multi-head在注意力机制中multi-head是将Q、K、V三者使用view将张量拆分为多个head,分别进行self-attention最后再将结果合并,这种方法使的。
2026-01-11 22:31:11
584
1
原创 机器学习—位置编码
Transformer结构使用位置编码是为了解决自注意力机制无法识别语序的问题。通过位置编码,模型能够区分不同位置的词向量,从而学习到序列的顺序信息。常见的编码方式包括:1) 原始Transformer的正余弦位置编码,通过周期函数生成独特编码;2) BERT的可学习位置嵌入;3) RoPE在自注意力中直接处理相对位置关系;4) Alibi通过简单的位置差值映射。这些方法都旨在为模型提供位置信息,使其能够理解词语的顺序关系,这对自然语言处理任务至关重要。实验表明,改变输入顺序会导致相同计算结果但不同位置输出
2026-01-11 14:19:47
376
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅