- 博客(17)
- 收藏
- 关注
原创 从0开始训练自己的tokenizer
以下是对这三种分词器的详细介绍。Hugging Face Tokenizer 是 Hugging Face 生态系统中的一个关键组件,用于自然语言处理(NLP)任务中的文本预处理。Tokenizer 的主要功能是将文本转换为模型可以处理的格式,如 token IDs,以便用于各种 NLP 模型的输入。是一个大型的中文文本数据集,通常用于训练和评估自然语言处理(NLP)模型。它包含从网络上收集的各种类型的中文文本数据,涵盖了新闻、博客、社交媒体、论坛、技术文档等多种文本来源。
2024-08-27 16:30:04 522
原创 语言模型的困惑度(Perplexity)
如果模型在给定的句子中每个词的预测概率都很高,那么模型的Perplexity会很低,表明模型对这个句子的理解很强。如果模型的预测概率很低,Perplexity会很高,说明模型对这个句子的预测不准确。在实际应用中,Perplexity 可以帮助我们比较不同的语言模型或同一个模型在不同训练阶段的表现。Perplexity 主要用于评估语言模型在处理语言的能力,而在实际应用中,它通常与其他指标一起使用,比如 BLEU 分数(用于机器翻译的评价)或 ROUGE 分数(用于文本摘要的评价),以全面评估模型的性能。
2024-08-22 14:34:26 234
原创 Beam Search 入门
Beam Search 是一种广泛用于自然语言处理(NLP)和搜索问题中的启发式搜索算法,尤其在生成任务(如机器翻译、文本生成)中应用广泛。它的核心思想是通过限制搜索空间,在合理的时间和计算资源内找到接近最优的解。
2024-08-22 13:52:50 782
原创 句子嵌入训练 常用损失函数
此损失仅期望单个句子,没有任何标签。通过随机抽样自动创建正对和负对,这样正对由两个相同的句子组成,负对由两个不同的句子组成。BatchAllTripletLoss 接收包含(句子,标签)对的批次,并计算所有可能的有效三元组的损失,即锚点和正例必须具有相同的标签,锚点和负例必须具有不同的标签。此损失函数非常适合训练具有正对(例如(query,relevant_doc))的检索设置的嵌入,因为它会在每批。适用于只有正对,例如,只有相似文本对,如释义对、重复问题对、(查询、响应)对或(源语言、目标语言)对。
2024-08-20 10:38:42 280
原创 通用文本嵌入(GTE)模型,使用入门
通用文本嵌入(GTE)模型。这使得 GTE 模型可以应用于文本嵌入的各种下游任务,包括信息检索、语义文本相似性、文本重排等。它通过一系列任务和数据集,对各种文本嵌入模型的性能进行评估,从而为研究者和开发者提供一个客观、全面的比较标准。MTEB的中文版(C-MTEB)是针对中文文本嵌入模型的评测基准。它涵盖了分类、聚类、检索、排序、文本相似度、STS(语义文本相似度)等多个经典任务,并提供了丰富的中文数据集。文本嵌入是一种将文本(如单词、句子或段落)映射到一个连续的数值向量空间的技术。
2024-08-14 10:56:38 365
原创 策略梯度(Policy Gradient, PG)算法
不同的动作应该有不同的价值评估。同一局游戏中的所有动作都用同一个奖励项来衡量是不合理的,因为有些动作是有益的,有些是有害的。整局游戏的结果并不能代表每个动作的质量。4.2 动作回报加权+折扣。:一条轨迹,一个回合。:该条轨迹的的总奖励。
2024-08-05 14:29:07 364
原创 Pendulum-v1 with PPO 入门
Pendulum-v1 是 OpenAI Gym 中的一个经典控制环境,用于模拟一根杆子在重力作用下的摆动。杆子的一端固定在铰链上,另一端可以自由摆动。环境的目标是通过向杆子施加力矩来控制其摆动,使其保持竖直。杆子的角度杆子的角速度杆子的位置杆子的线速度环境的动作空间是一个连续空间,表示施加在杆子上的力矩的大小。Pendulum-v1 的奖励函数是基于杆子的角度和角速度计算的。杆子越竖直,角速度越慢,奖励就越高。
2024-07-24 14:53:10 581
原创 MountainCarContinuous-v0 with PPO 入门
MountainCarContinuous-v0 是一个经典的强化学习环境,主要用于测试连续动作空间的算法。它是 OpenAI Gym 中的一个环境,模拟了一个小车在一个山谷中的运动,目标是通过控制小车的加速度,使其能够爬上山顶。
2024-07-19 11:25:00 339
原创 MountainCar-v0 入门
MountainCar-v0 是一个经典的强化学习环境,属于 OpenAI Gym 提供的一部分。它的目标是帮助研究和实验基本强化学习算法。
2024-07-11 11:33:51 390
原创 CartPole-v1 入门,使用DQN
CartPole-v1 是 OpenAI Gym 中一个经典的控制学习环境。它模拟一根杆子垂直放置在小车上,小车可以在水平方向上移动。游戏的目标是通过控制小车左右移动来保持杆子竖直,尽可能长时间地不倒杆。
2024-07-04 10:35:23 584
原创 CliffWalking入门
悬崖行走问题是强化学习中一个经典的入门级问题。它描述了一个智能体从起点 S 到达目标 G 的网格世界环境,其中存在悬崖会让智能体掉落并重置到起点。智能体的目标是通过学习最优策略,尽可能减少到达目标所需的步数。Q-Learning 是一种常用的强化学习算法,用于解决 CliffWalking 问题。它使用 Q 表来存储每个状态-动作对的期望奖励。智能体会根据 Q 表来选择动作,并不断更新 Q 表以提高策略的性能。
2024-07-03 11:11:45 1790
原创 q-learing
强化学习是一种机器学习方法,强调通过与环境的互动来学习行为策略,以最大化累积奖励。Q-learning 是一种无模型(model-free)的强化学习算法,它通过学习一个 Q 函数来估计每个状态-动作对的期望回报。
2024-06-28 14:49:20 1351
windows休息提醒定时器
2024-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人